Ihr KI-Agent verbrennt 21.000 Token, um einen Tippfehler zu beheben: 6 Kostenmuster
In einer dokumentierten Claude-Code-Sitzung wurden 21.000 Eingabetokens verwendet, um ein einzelnes Zeichen zu korrigieren. Sechs Muster, die die Token-Rechnungen um 60 bis 80 % senken, mit Code und echten Zahlen.
Ein Entwickler bei Morph dokumentierte eine Claude-Code-Sitzung, die über 21.000 Eingabe-Tokens verbrauchte Korrigieren Sie einen Tippfehler bei einem einzelnen Zeichen. Das ist so, als würde man einen kurzen Roman lesen, um ihn zu verändern Brief. Die Sitzung hat die Token verbrannt und den gesamten Gesprächsverlauf bei jeder Runde erneut angezeigt. Wiederholen eines fehlgeschlagenen Tool-Aufrufs und erneutes Lesen derselben drei Dateien, die der Agent bereits geladen hatte zweimal.
Nichts an dieser Sitzung war ungewöhnlich. Coding-Agenten senden den Verlauf bei jedem Tool-Aufruf erneut Multiplizieren Sie den Wert in der Mitte der Runden, und das 5-Minuten-Cache-Fenster für die Eingabeaufforderung ist leicht zu übersehen. Ein Team Wenn Sie Claude Code oder Cursor auf derselben Arbeitslast ausführen, kann eine Token-Rechnung generiert werden, die um das Zehnfache variiert abhängig davon, ob diese sechs Muster vorhanden sind.
Hier sind sie, jeweils mit der Codeänderung, die die Speicherung freischaltet, und einer realistischen Anzahl wofür es schneidet.
Muster 1: Iterationen begrenzen und ein Token-Budget durchsetzen
Der schnellste Weg, Token zu brennen, ist eine Agentenschleife ohne Beendigungsbedingung. Der Agent erreicht eine 400 Fehler, Wiederholungsversuche mit der gleichen fehlerhaften Eingabe, Wiederholungsversuche mit leicht unterschiedlichen fehlerhaften Eingaben, erneute Versuche, und so weiter. Bis zur Iteration 40 haben Sie 80.000 Token ausgegeben und nichts produziert.
Die unbegrenzte Version, die jedem Tutorial beiliegt:
Die Version, die Sie nicht um 2 Uhr morgens weckt:
Zwei Kappen; eine für Iterationen, eine für die Gesamtzahl der Token. Die Iterationsobergrenze fängt Wiederholungsstürme ab. Die Das Token-Budget erfasst langwierige Aufgaben, die noch konvergieren, aber den Dollarwert überschreiten Sinn. Wenn der Agent das Problem nicht in 20 Tool-Aufrufen lösen kann, ist die Lösung eine bessere Eingabeaufforderung oder ein besserer Fehler Besseres Tool, keine weiteren Iterationen.
Protokoll stats.iterations neben stats.inputTokens in Ihren Kennzahlen
Pipeline. Aufgaben, die in 3 bis 5 Iterationen abgeschlossen werden, sind fehlerfrei. Aufgaben angeheftet bei 18 bis 20
Iterationen sind Wiederholungsstürme, die eine sofortige Umschreibung und keine Erhöhung der Obergrenze erfordern.
Muster 2: Markieren Sie langen statischen Kontext als zwischenspeicherbar
Der Prompt-Cache von Anthropic berechnet Cache-Treffer mit 10 % der Eingaberate und Cache-Schreibvorgänge mit 125 %. Für ein Styleguide mit 10.000 Token, der bei 100 Aufrufen innerhalb der 5-minütigen TTL, dem zwischengespeicherten Lauf, wiederverwendet wird kostet etwa 12 % des nicht zwischengespeicherten Laufs.
Hinzufügen cache_control Zu einem Inhaltsblock gehört eine Zeile. Am häufigsten kommt es vor, dass man es vermisst
Kostenfehler im Produktionsagentencode:
Der Cache bleibt 5 Minuten lang bestehen. Wenn Ihr Agent alle 20 Minuten einen Anruf tätigt, zahlen Sie den Cache Schreiben Sie Prämien, ohne sie zu amortisieren, und Caching kostet Sie Geld. Wenn Ihr Agent Ausbrüche macht 10 bis 50 Anrufe in weniger als 5 Minuten, die Rechnung fällt deutlich zu Ihren Gunsten aus.
Eine konkrete Zahl: Eine Review-Sitzung mit 40 Anrufen und einem 8K-Styleguide, ohne Cache, kostet etwa 40 * 8.000 = 320.000 Eingabe-Token allein für den Styleguide. Mit Caching: 10.000 (Schreiben mit 125 %) + 39 * 800 (liest bei 10 %) = 41.200 abrechenbare Token. Das ist eine Reduzierung um 87 % gegenüber dem wiederverwendbaren Block.
Muster 3: Fassen Sie das Ende langer Sitzungen zusammen
In der 30. Runde einer Sitzung liest der Agent bei jedem Anruf die Runden 1 bis 29 erneut. Die frühen Wendungen enthalten Setup-Kontext, der schon lange nicht mehr umsetzbar ist. Komprimieren Sie sie.
Zusammenfassend lässt sich sagen, dass Haiku nicht dasselbe teure Modell ist, das die Hauptschleife antreibt. Die Zusammenfassung kann verlieren Detail; Behalten Sie genug, um Dateipfade, Funktionsnamen und Entscheidungen, die der Agent bereits getroffen hat, beizubehalten gemacht. Die letzten 6 Runden bleiben wörtlich, sodass das Modell immer noch über aktuelle Tool-Call-Ergebnisse verfügt und funktioniert Kontext.
Für eine Sitzung, die im Begriff war, 120.000 Eingabetokens pro Runde zu erreichen, wurden die Runden 1 bis 24 komprimiert in eine 400-Token-Zusammenfassung reduziert die Eingabe pro Runde auf etwa 8K. Sparsumme: auf die nächsten 10 Umdrehungen, das sind eine Million Token, die Sie nicht gesendet haben.
Muster 4: RAG über vollständige Datei-Lesevorgänge für Referenzmaterial
Die sichtbarste Form ist, jeden Durchgang drei ganze Dateien zu versenden, weil der Agent sie möglicherweise benötigt von Abfall. Eine Vector-Store-Suche, die die 5 relevantesten 180-Token-Chunks zurückgibt, schneidet die Referenz ab Kontext um 60 bis 80 %, während die Genauigkeit bei gezielten Fragen erhalten bleibt.
Als Faustregel gilt: Dateien unter 3K-Tokens gehen direkt rein; Dateien mit mehr als 10.000 Token werden aufgeteilt und abgerufen; Dateien dazwischen hängen davon ab, ob der Agent das Ganze scannt oder nach einem sucht spezifische Funktion. Für API-Spezifikationen, Dokumentationsseiten und Konfigurationsschemata gilt strikt RAG besser. Halten Sie die Datei, die der Agent aktiv bearbeitet, inline.
Muster 5: Deterministische Arbeit auf typisierte Toolaufrufe verlagern
Der teuerste Token ist der Ausgabetoken, der für die Überlegung eines Problems aufgewendet wird, das das Modell lösen sollte Ich wurde nie gebeten, sie zu lösen. Deterministische, strukturierte Aufgaben gehören in ein Tool:
- E-Mail-Syntax plus MX plus Einwegprüfung
- Telefonparsing nach E.164 mit Ländererkennung
- Ablauf des SSL-Zertifikats und Kettenvalidierung
- JSON-Schemavalidierung, JSON-zu-TypeScript-Konvertierung
- Hashing, UUID-Generierung, Base64-Kodierung, Zeitstempelkonvertierung
- SPF-, DMARC-, DKIM-Prüfungen; DNS-Eintragssuche
Die Vorgängerversion kostet ca. 2.400 Token pro Anruf und halluziniert manchmal MX-Datensätze. Das Nachher Die Version kostet etwa 230 Token, ruft einen typisierten Endpunkt auf und gibt eine schemavalidierte Antwort zurück. Die Der Agent erhält die gleichen Informationen für 10 % der Kosten und ohne Argumentationsfehler.
Hier passt eine externe API sauber in den Agent-Stack. Toolaufrufe, die in a enden Eine einzelne HTTP-Anfrage an einen typisierten Endpunkt entfernt sowohl die Kosten für das Ausgabetoken als auch eine Klasse von Halluzinationen. Jeder Botoi-Endpunkt kann in wenigen Zeilen als Claude- oder OpenAI-Tool verpackt werden direkt über den Botoi MCP-Server aufgerufen, der 49 davon als MCP-Tools offenlegt.
Muster 6: Route nach Aufgabentyp zum günstigsten akzeptablen Modell
Opus kostet 5x Sonnet und 15x Haiku pro Eingabe-Token. Für die meisten Aufgaben in einer Agentenschleife ist Opus nicht erforderlich. Klassifizierung, Extraktion, kurzes Tool-Call-Routing und zusammenfassende Komprimierung funktionieren einwandfrei Haiku. Behalten Sie Opus für Architekturentscheidungen und hartes Debugging.
Ein typischer Agent mit gemischter Arbeitslast, der jeden Schritt auf Opus ausführte, verlor 62 % seines monatlichen Arbeitsaufwands Rechnung, indem nur die „Plan“-Aufgaben an Opus weitergeleitet und die Klassifizierung/Extrahierung an Haiku weitergeleitet werden. Die Genauigkeit Die Regression bei diesen Aufgaben war Null, da sie von vornherein deterministisch waren.
Das Claude Advisor Tool-Muster geht noch einen Schritt weiter: Sonnet steuert die Hauptschleife und ruft Opus auf der mittleren Generation um eine zweite Meinung zu einer konkreten Entscheidung bitten. Ein Anruf, zwei Modelle, nahezu Opus Qualität zum Sonnet-Preis.
Instrument, bevor Sie optimieren
Was man nicht sieht, kann man nicht schneiden. Protokollieren Sie die Token-Statistiken pro Lauf, sobald Sie einen Agenten versenden Produktion:
Rohr runs.jsonl in alles, was Sie bereits für Metriken verwenden. Die erste Woche der Daten
zeigt eine Handvoll Läufe, die das Dreifache des Medians verbrauchen. Das sind Ihre Wiederholungsschleifen. Die nächste Woche
zeigt eine zweite Ebene teurer Läufe an, bei denen es sich um Cache-Fehler handelt, weil das Cache-Fenster abgelaufen ist.
Ordnen Sie diese in der Reihenfolge der Kosten und nicht in der Reihenfolge der Häufigkeit an.
Zusammenfassend: Erwartete Einsparungen nach Muster
| Muster | Typische Ersparnis | Aufwand für den Versand |
|---|---|---|
| Iteration + Token-Obergrenze | 40–90 % bei pathologischen Läufen | Niedrig (eine Stunde) |
| Prompt-Cache für wiederverwendbaren Kontext | 60–90 % des zwischengespeicherten Blocks | Niedrig (eine Zeile pro Block) |
| Schwanzzusammenfassung | 30-70 % bei langen Sitzungen | Mittel (Komprimierungslogik) |
| RAG für Referenzmaterial | 60–80 % der abgerufenen Inhalte | Mittel (Einrichtung des Vektorspeichers) |
| Tool-Offload für deterministische Arbeit | 70–95 % bei ausgelagerter Aufgabe | Niedrig (Tooldefinition + HTTP-Aufruf) |
| Modellrouting nach Aufgabentyp | 50–80 % gemischt | Niedrig (Routerfunktion) |
Stapeln Sie alle sechs. Ein Team, das von „alles auf Opus, kein Cache, volle Dateien, 40-Iterations-Obergrenze“ zu wechselt „Haiku-Sonnet-Routing, zwischengespeicherte Systemaufforderungen, RAG, typisierte Tools, 20-Iterations-Obergrenze“ schneidet regelmäßig ab monatliche Ausgaben um 70 bis 85 % bei gleicher oder besserer Aufgabenerledigungsrate.
Wichtige Erkenntnisse
- Cap-Iterationen und Token, keine Wanduhr. Eine Obergrenze von 20 Iterationen / 150.000 Token Stoppt Wiederholungsstürme, bevor sie Ihnen Geld kosten.
-
Markieren Sie wiederverwendbaren Kontext als zwischenspeicherbar. Eins
cache_controlLiniendrehungen eine Sitzung mit 40 Anrufen von 320.000 abrechenbaren Token auf 41.000. - Fassen Sie den Schwanz mit Haiku zusammen, halten Sie den Kopf wörtlich. Alte Wendungen hören auf zu sein schneller umsetzbar, als die meisten Agenten bemerken.
- Referenzmaterial abrufen, nicht versenden. RAG reduziert die Eingabetoken um 60–80 % für Dokumente, Spezifikationen und Schemata, die der Agent scannt, anstatt sie zu bearbeiten.
- Tool-rufen Sie die deterministische Arbeit auf. E-Mail-Validierung, DNS-Suche, Hashing, JSON-Konvertierung; Nichts davon verdient Argumentation.
- Route nach Aufgabenart. Haiku für klassifizieren/extrahieren, Sonett für Vernunft, Opus für planen. Die gemischte Rechnung sinkt um 50 bis 80 %, ohne dass es zu einem Genauigkeitsverlust bei strukturierten Aufgaben kommt.
Botoi bietet Ihnen über 150 typisierte Endpunkte und einen MCP-Server mit 49 Tools, der in jede Agentenschleife eingebunden werden kann. Das Ersetzen von Reasoning-Tokens durch einen HTTP-Aufruf kostet etwa 230 Token pro deterministischer Aufgabe statt 2.000+. Probieren Sie es aus interaktive API-Dokumente oder verbinden Sie Claude Code, Cursor oder VS Code mit dem MCP-Server in einem config-Block, und beobachten Sie dann, wie Ihre Token-Zeile im Kosten-Dashboard flacher wird.
FAQ
- Warum verwendet ein KI-Codierungsagent so viele Token für eine kleine Änderung?
- Codierungsagenten senden den gesamten Gesprächsverlauf bei jedem Schritt erneut. Eine 30-Runden-Sitzung, die mit drei großen Dateilesevorgängen begann, sendet diese Lesevorgänge in jeder Runde, multipliziert mit der Anzahl der Toolaufrufe, die der Agent zwischen den Runden durchführt. Eine Tippfehlerkorrektur, die für einen Menschen trivial erscheint, kann zu 20 bis 30 Hin- und Rückfahrten führen, von denen jeder 1.000 bis 1.500 Kontexttoken enthält, die das Modell bereits gesehen hat. Die arithmetischen Verbindungen gehen schnell.
- Wie viel spart Prompt-Caching bei einem Anthropic-Anruf?
- Der Prompt-Cache von Anthropic berechnet 10 % der Eingabe-Token-Rate für Cache-Treffer und 125 % für Cache-Schreibvorgänge. Für eine Systemaufforderung mit 10.000 Token, die bei 100 Aufrufen innerhalb der 5-Minuten-TTL wiederverwendet wird, kostet die zwischengespeicherte Ausführung etwa 12 % der nicht zwischengespeicherten Ausführung. ein Schreibvorgang bei 125 % plus 99 Lesevorgänge bei 10 %. Je größer Ihr wiederverwendbarer Kontext ist, desto größer sind die Einsparungen.
- Welche Iterationsobergrenze sollte ich für eine Agentenschleife festlegen?
- Beginnen Sie mit 15 bis 25 Iterationen für eine einzelne logische Aufgabe. Wenn Ihr Agent in 15 Tool-Aufrufen keine richtige Antwort finden kann, wird er diese wahrscheinlich auch in 50 nicht erreichen; Es ist wahrscheinlicher, dass es sich in einer Wiederholungsschleife oder halluzinierenden Tool-Argumenten verfängt. Fügen Sie eine Budgetprüfung hinzu, die die Schleife unterbricht, wenn die Sitzung einen Token-Schwellenwert und nicht ein Zeitlimit überschreitet. Token-Ausgaben werden den Dollar-Kosten zugeordnet; Wanduhr nicht.
- Wann ist es sinnvoll, eine externe HTTP-API von einem Agenten aufzurufen, anstatt das Modell zu bitten, die Antwort zu berechnen?
- Immer wenn die Aufgabe deterministisch und strukturiert ist: E-Mail-Validierung, Telefonanalyse, SSL-Prüfungen, Base64-Dekodierung, UUID-Generierung, Hash-Berechnung, JSON-Schema-Validierung. Das Modell sollte nicht 500 Ausgabe-Tokens damit verbringen, herauszufinden, ob support@acme.com über einen gültigen MX-Eintrag verfügt. Ein einzelner Toolaufruf an einen typisierten Endpunkt gibt die Antwort in 30 Token zurück und entfernt eine Klasse von Halluzinationen.
- Ist RAG immer besser als das Einfügen ganzer Dateien in den Kontext?
- Für größtenteils lesbares Referenzmaterial (Dokumente, Konfigurationsschemata, API-Spezifikationen): ja; Teams, die auf einen 5K-Token-RAG-Abruf umsteigen, reduzieren in der Regel die Eingabe-Tokens um 60 bis 80 % im Vergleich zum Senden vollständiger Dateien. Bei kleinen Dateien unter 3K-Tokens, die vollständig in den Kontext passen, erhöht RAG die Komplexität ohne Einsparungen. Die Regel: Wenn der relevante Inhalt weniger als 3K-Tokens enthält, integrieren Sie ihn. Wenn es mehr als 10.000 Token sind und der Agent nur ein Slice benötigt, rufen Sie es ab.
Starte mit botoi zu entwickeln
150+ API-Endpunkte für Abfragen, Textverarbeitung, Bildgenerierung und Entwickler-Tools. Kostenloser Tarif, keine Kreditkarte nötig.