Votre agent IA brûle 21 000 jetons pour corriger une faute de frappe : 6 modèles de coûts
Une session Claude Code documentée a utilisé 21 000 jetons d'entrée pour corriger un seul caractère. Six modèles qui réduisent les factures de jetons de 60 à 80 %, avec code et chiffres réels.
Un développeur de Morph a documenté une session Claude Code qui a consommé plus de 21 000 jetons d'entrée pour correction d'une faute de frappe sur un seul caractère. C'est l'équivalent de lire un court roman pour en changer un lettre. La session a brûlé les jetons, renvoyant l'historique complet de la conversation à chaque tour, réessayer un appel d'outil ayant échoué et relire les trois mêmes fichiers que l'agent avait déjà chargés deux fois.
Rien dans cette séance n’était inhabituel. Les agents de codage renvoient l'historique à chaque tour, les outils appellent se multiplient au milieu des tours, et la fenêtre de cache d'invite de 5 minutes est facile à manquer. Une équipe exécuter Claude Code ou Cursor sur la même charge de travail peut générer une facture de jetons qui varie de 10x selon que ces six modèles sont en place ou non.
Les voici, chacun avec le changement de code qui débloque la sauvegarde et un numéro réaliste pour quoi ça coupe.
Modèle 1 : plafonner les itérations et appliquer un budget symbolique
Le moyen le plus rapide de graver des jetons est une boucle d'agent sans condition de sortie. L'agent atteint un 400 erreur, réessaye avec la même mauvaise entrée, réessaye avec une mauvaise entrée légèrement différente, réessaye, et ainsi de suite. À l'itération 40, vous avez dépensé 80 000 jetons pour ne rien produire.
La version illimitée fournie avec chaque didacticiel :
La version qui ne vous réveillera pas à 2 heures du matin :
Deux casquettes ; un sur les itérations, un sur le total des jetons. Le plafond d’itération détecte les tempêtes de nouvelles tentatives. Le le budget symbolique couvre les tâches de longue durée qui convergent toujours mais dépassent le seuil du dollar sens. Si l'agent ne parvient pas à résoudre le problème en 20 appels à l'outil, le correctif est une meilleure invite ou un meilleur outil, pas plus d'itérations.
Enregistrer stats.iterations aux côtés stats.inputTokens dans vos métriques
canalisation. Les tâches terminées en 3 à 5 itérations sont saines. Tâches épinglées entre 18 et 20
les itérations sont des tempêtes de nouvelles tentatives qui nécessitent une réécriture rapide, et non une augmentation du plafond.
Modèle 2 : marquer un contexte statique long comme pouvant être mis en cache
Le cache d'invite d'Anthropic facture le cache à 10 % du taux d'entrée et le cache écrit à 125 %. Pour un guide de style de 10 000 jetons qui est réutilisé sur 100 appels dans le TTL de 5 minutes, l'exécution en cache coûte environ 12 % de l’exécution non mise en cache.
Ajout cache_control à un bloc de contenu est une ligne. Le manquer est le plus courant
erreur de coût dans le code de l'agent de production :
Le cache dure 5 minutes. Si votre agent passe un appel toutes les 20 minutes, vous payez le cache écrivez une prime sans l'amortir, et la mise en cache vous coûte de l'argent. Si votre agent fait des éclats de 10 à 50 appels en moins de 5 minutes, les calculs tournent en votre faveur.
Un chiffre concret : une session de révision de 40 appels avec un guide de style 8K, sans cache, coûte environ 40* 8 000 = 320 000 jetons d'entrée pour le seul guide de style. Avec mise en cache : 10 000 (écriture à 125 %) + 39 * 800 (lectures à 10 %) = 41 200 jetons facturables. Cela représente une réduction de 87 % sur le bloc réutilisable.
Modèle 3 : résumer la fin des longues sessions
Au tour 30 d'une session, l'agent relit les tours 1 à 29 à chaque appel. Les premiers virages contiennent un contexte de configuration qui a depuis longtemps cessé d'être exploitable. Compressez-les.
Pour résumer avec Haiku, ce n'est pas le même modèle coûteux qui pilote la boucle principale. Le résumé peut perdre détail; en conserver suffisamment pour préserver les chemins de fichiers, les noms de fonctions et les décisions que l'agent a déjà prises fait. Les 6 derniers tours restent textuellement afin que le modèle ait toujours les résultats récents des appels d'outils et fonctionne contexte.
Pour une session qui était sur le point d'atteindre 120 000 jetons d'entrée par tour, en compressant les tours 1 à 24 dans un résumé de 400 jetons réduit l'entrée par tour à environ 8K. Composé d’épargne : sur les 10 prochains tours, c'est un million de jetons que vous n'avez pas envoyés.
Modèle 4 : RAG sur les lectures de fichiers complets pour le matériel de référence
Envoyer trois fichiers entiers à chaque tour parce que l'agent pourrait en avoir besoin est la forme la plus visible de déchets. Une recherche de magasin vectoriel renvoyant la référence des 5 coupes de morceaux de 180 jetons les plus pertinentes contexte de 60 à 80% tout en gardant de la précision sur des questions ciblées.
La règle générale : les fichiers sous 3K tokens entrent directement ; les fichiers de plus de 10 000 jetons sont fragmentés et récupéré; les fichiers entre les deux dépendent du fait que l'agent analysera le tout ou recherchera un fonction spécifique. Pour les spécifications API, les sites de documentation et les schémas de configuration, RAG est strictement mieux. Pour le fichier que l'agent est en train de modifier activement, conservez-le en ligne.
Modèle 5 : décharger le travail déterministe vers des appels d'outils typés
Le jeton le plus cher est le jeton de sortie dépensé pour raisonner sur un problème que le modèle devrait résoudre. on n'a jamais demandé de résoudre. Les tâches déterministes et structurées appartiennent à un outil :
- Syntaxe de courrier électronique plus MX plus chèque jetable
- Analyse du téléphone vers E.164 avec détection de pays
- Expiration du certificat SSL et validation de la chaîne
- Validation du schéma JSON, conversion JSON vers TypeScript
- Hachage, génération d'UUID, encodage base64, conversion d'horodatage
- Contrôles SPF, DMARC, DKIM ; Recherches d'enregistrements DNS
La version précédente coûte environ 2 400 jetons par appel et hallucine parfois les enregistrements MX. L'après La version coûte environ 230 jetons, appelle un point de terminaison typé et renvoie une réponse validée par le schéma. Le l'agent obtient les mêmes informations pour 10 % du coût et zéro erreur de raisonnement.
C'est là qu'une API externe s'intègre parfaitement dans la pile d'agents. Les appels d'outils qui se terminent par un une seule requête HTTP vers un point de terminaison typé supprime à la fois le coût du jeton de sortie et une classe de hallucinations. N'importe quel point de terminaison Botoi peut être enveloppé comme un outil Claude ou OpenAI en quelques lignes, ou appelés directement via le serveur Botoi MCP qui expose 49 d'entre eux en tant qu'outils MCP.
Modèle 6 : acheminement par type de tâche vers le modèle acceptable le moins cher
Opus coûte 5x Sonnet et 15x Haiku par jeton d'entrée. La plupart des tâches d'une boucle d'agent n'ont pas besoin d'Opus. La classification, l'extraction, le routage d'appels d'outils courts et la compression récapitulative fonctionnent tous correctement sur Haïku. Gardez Opus pour les décisions architecturales et le débogage intensif.
Un agent typique à charge de travail mixte qui exécutait chaque étape sur Opus a perdu 62 % de ses dépenses mensuelles. facture en acheminant uniquement les tâches « planifier » vers Opus et en poussant classifier/extraire vers Haiku. La précision la régression sur ces tâches était nulle car elles étaient déterministes au départ.
Le modèle Claude Advisor Tool va plus loin : Sonnet pilote la boucle principale et appelle Opus la mi-génération pour un deuxième avis sur une décision spécifique. Un appel, deux modèles, proche d'Opus la qualité au prix de Sonnet.
Instrument avant d’optimiser
Vous ne pouvez pas couper ce que vous ne pouvez pas voir. Enregistrez les statistiques des jetons par exécution dès que vous envoyez un agent à fabrication :
Tuyau runs.jsonl dans tout ce que vous utilisez déjà pour les métriques. La première semaine de données
affichera une poignée de courses consommant 3 fois la médiane. Ce sont vos boucles de nouvelle tentative. La semaine prochaine
affichera un deuxième niveau d'exécutions coûteuses qui sont des échecs de cache parce que la fenêtre de cache est expirée.
Corrigez-les par ordre de coût et non par ordre de fréquence.
Mise en place : économies attendues par modèle
| Modèle | Économie typique | Effort pour expédier |
|---|---|---|
| Itération + plafond de jeton | 40-90 % sur les parcours pathologiques | Faible (une heure) |
| Cache d'invite sur un contexte réutilisable | 60-90% sur le bloc mis en cache | Faible (une ligne par bloc) |
| Résumé de la queue | 30-70% sur les sessions longues | Moyen (logique de compression) |
| RAG pour le matériel de référence | 60-80 % sur le contenu récupéré | Moyen (configuration du magasin vectoriel) |
| Déchargement d'outils pour un travail déterministe | 70 à 95 % sur les tâches déchargées | Faible (définition de l'outil + appel HTTP) |
| Modéliser le routage par type de tâche | 50-80% mélangé | Faible (fonction routeur) |
Empilez les six. Une équipe passant de « tout sur Opus, pas de cache, fichiers complets, plafond de 40 itérations » à "Routage Haiku-Sonnet, invites système mises en cache, RAG, outils tapés, plafond de 20 itérations" coupe régulièrement dépenses mensuelles de 70 à 85 % avec des taux d'achèvement des tâches identiques ou meilleurs.
Points clés à retenir
- Cap sur les itérations et les jetons, pas sur l'horloge murale. Un plafond de 20 itérations/150 000 jetons arrête de réessayer les tempêtes avant qu'elles ne vous coûtent de l'argent.
-
Marquez le contexte réutilisable comme pouvant être mis en cache. Une
cache_controltours de ligne une session de 40 appels de 320 000 jetons facturables à 41 000. - Résumez la queue avec Haiku, gardez la tête textuellement. Les vieux virages cessent d'être exploitables plus rapidement que la plupart des agents ne le remarquent.
- Récupérer, ne pas envoyer, le matériel de référence. RAG réduit de 60 à 80 % les jetons d'entrée pour les documents, les spécifications et les schémas que l'agent analyse plutôt que modifie.
- Outil-appelez le travail déterministe. Validation des e-mails, recherches DNS, hachage, Conversion JSON ; rien de tout cela ne mérite des jetons de raisonnement.
- Itinéraire par type de tâche. Haïku pour classer/extraire, Sonnet pour raison, Opus pour planifier. La facture combinée diminue de 50 à 80 % avec une perte de précision nulle sur les tâches structurées.
Botoi vous offre plus de 150 points de terminaison typés et un serveur MCP de 49 outils prêt à être connecté à n'importe quelle boucle d'agent. Remplacer les jetons de raisonnement par un appel HTTP coûte environ 230 jetons par tâche déterministe au lieu de 2 000+. Essayez le documentation API interactive ou connectez Claude Code, Cursor ou VS Code au Serveur MCP en un bloc de configuration, puis regardez votre ligne de jeton sur le tableau de bord des coûts s'aplatir.
FAQ
- Pourquoi un agent de codage IA utilise-t-il autant de jetons pour une petite monnaie ?
- Les agents de codage renvoient l’historique complet des conversations à chaque tour. Une session de 30 tours qui a commencé avec trois lectures de fichiers volumineux envoie ces lectures à chaque tour, multipliées par le nombre d'appels d'outil effectués par l'agent entre les tours. Une correction de faute de frappe qui semble triviale pour un humain peut se transformer en 20 à 30 allers-retours, chacun transportant 1 000 à 1 500 jetons de contexte que le modèle a déjà vu. Les composés arithmétiques sont rapides.
- Combien la mise en cache des invites permet-elle d'économiser sur un appel Anthropic ?
- Le cache d'invite d'Anthropic facture 10 % du taux de jeton d'entrée pour les accès au cache et 125 % pour les écritures dans le cache. Pour une invite système de 10 000 jetons réutilisée sur 100 appels pendant la durée de vie de 5 minutes, l'exécution en cache coûte environ 12 % de l'exécution non mise en cache ; une écriture à 125 % plus 99 lectures à 10 %. Plus votre contexte réutilisable est grand, plus les économies sont importantes.
- Quel plafond d'itérations dois-je définir sur une boucle d'agent ?
- Commencez par 15 à 25 itérations pour une seule tâche logique. Si votre agent ne parvient pas à obtenir une réponse correcte en 15 appels à l'outil, il n'y parviendra probablement pas en 50 ; il est plus probablement pris dans une boucle de nouvelle tentative ou dans des arguments hallucinants de l'outil. Ajoutez une vérification du budget qui tue la boucle lorsque la session dépasse un seuil de jeton, et non une limite d'horloge murale. Les dépenses en jetons correspondent au coût en dollars ; l’horloge murale ne le fait pas.
- Quand est-il judicieux d’appeler une API HTTP externe depuis un agent au lieu de demander au modèle de calculer la réponse ?
- A chaque fois que la tâche est déterministe et structurée : validation email, analyse téléphonique, vérifications SSL, décodage base64, génération UUID, calcul de hachage, validation de schéma JSON. Le modèle ne doit pas dépenser 500 jetons de sortie pour déterminer si support@acme.com dispose d'un enregistrement MX valide. Un seul appel d'outil à un point de terminaison typé renvoie la réponse en 30 jetons et supprime une classe d'hallucinations.
- RAG est-il toujours préférable de placer des fichiers entiers dans leur contexte ?
- Pour les documents de référence principalement lus (documents, schémas de configuration, spécifications API), oui ; les équipes qui passent à une récupération RAG de 5 000 jetons réduisent généralement les jetons d'entrée de 60 à 80 % par rapport à l'envoi de fichiers complets. Pour les petits fichiers de moins de 3 000 jetons qui s'intègrent entièrement dans leur contexte, RAG ajoute de la complexité sans réaliser d'économies. La règle : si le contenu pertinent est inférieur à 3 000 jetons, insérez-le ; s'il dépasse 10 000 jetons et que l'agent n'a besoin que d'une tranche, récupérez-la.
Commencez a construire avec botoi
150+ endpoints API pour la recherche, le traitement de texte, la generation d'images et les utilitaires pour developpeurs. Offre gratuite, sans carte bancaire.