コンテンツへスキップ
Guide

AI エージェントはタイプミスを修正するために 21,000 トークンを消費します: 6 つのコスト パターン

| 9 min read

文書化されたあるクロード コード セッションでは、1 文字を修正するために 21,000 個の入力トークンが使用されました。 トークン代を60~80%削減する6パターンをコードと実数値でご紹介。

Financial charts and pricing data on a screen representing AI token cost tracking
Photo by Austin Distel on Unsplash

Morph の開発者は、21,000 を超える入力トークンを消費したクロード コード セッションを文書化しました。 単一文字のタイプミスを修正します。 それは、短編小説を読んで気分を変えるのと同じです。 手紙。 セッションはトークンを書き込み、ターンごとに完全な会話履歴を再送信します。 失敗したツール呼び出しを再試行し、エージェントがすでにロードしたのと同じ 3 つのファイルを再読み込みします。 2回。

そのセッションには何も異常はありませんでした。 コーディング エージェントは、ツール呼び出しごとに履歴を再送信します。 ターンの途中で倍増するため、5 分間のプロンプト キャッシュ ウィンドウを見逃しがちです。 チーム 同じワークロードで Claude Code または Cursor を実行すると、10 倍異なるトークン請求額が生成される可能性があります この6つのパターンが揃っているかどうかで決まります。

それぞれにコードの変更が加えられ、節約のロックが解除され、実際の数値が示されています。 それは切れます。

パターン 1: イテレーションに上限を設け、トークンの予算を強制する

The fastest way to burn tokens is an agent loop with no exit condition. エージェントは 400 を達成しました エラー、同じ不正な入力で再試行、わずかに異なる不正な入力で再試行、再度再試行、 など。 反復 40 までに、80,000 トークンを費やしても何も生成されませんでした。

すべてのチュートリアルに付属する無制限のバージョン:

午前 2 時に目覚めないバージョン:

キャップ2個。 1 つは反復に関するもの、もう 1 つは合計トークンに関するものです。 反復上限により、再試行の嵐が発生します。 の トークンバジェットは、まだ収束中だがドルの時点を過ぎている長時間実行タスクを捕捉します 感覚。 エージェントが 20 回のツール呼び出しで問題を解決できない場合は、より適切なプロンプトまたは 繰り返しを増やすことではなく、より良いツールを。

ログ stats.iterations 並んで stats.inputTokens あなたのメトリクスで パイプライン。 3 ~ 5 回の反復で完了するタスクは正常です。 18 から 20 に固定されたタスク イテレーションは、上限の増加ではなく、即時の書き換えを必要とする再試行の嵐です。

パターン 2: 長い静的コンテキストをキャッシュ可能としてマークする

Anthropic のプロンプト キャッシュは、入力レートの 10% でキャッシュ ヒット、125% でキャッシュ書き込みを請求します。 のために 5 分間の TTL 内の 100 回の呼び出しで再利用される 10,000 トークンのスタイル ガイド、キャッシュされた実行 キャッシュされていない実行の約 12% のコストがかかります。

追加 cache_control コンテンツブロックまでは 1 行です。 見逃すことが最も一般的です 実稼働エージェント コードのコストの間違い:

キャッシュの有効期間は 5 分間です。 エージェントが 20 分ごとに 1 回電話をかけた場合、キャッシュ料金を支払います 償却せずにプレミアムを書き込むと、キャッシュに費用がかかります。 エージェントがバーストした場合、 5 分以内に 10 ~ 50 件のコールを行うと、計算は大きく逆転します。

具体的な数字: 8K スタイル ガイドを使用した 40 コールのレビュー セッション (キャッシュなし) のコストはおよそ 40 * スタイル ガイドだけで 8,000 = 320,000 の入力トークン。 キャッシュあり: 10,000 (125% での書き込み) + 39 * 800 (10% での読み取り) = 41,200 の請求可能なトークン。 これは、再利用可能なブロックが 87% 削減されることになります。

パターン 3: 長いセッションの最後を要約する

セッションのターン 30 で、エージェントはコールごとにターン 1 から 29 を再読み込みします。 初期のターン 長い間実行可能でなくなったセットアップ コンテキストが含まれています。 圧縮してください。

Haiku で要約すると、メイン ループを駆動する同じ高価なモデルではありません。 まとめは負ける可能性がある 詳細; ファイルパス、関数名、およびエージェントがすでに行った決定を保存するのに十分な量を保持する 作った。 最後の 6 ターンはそのまま維持されるため、モデルには最新のツール呼び出し結果と機能がまだ残っています。 コンテキスト。

ターンあたり 120,000 の入力トークンに達しようとしていたセッションの場合、ターン 1 から 24 までを圧縮 400 トークンの概要にすると、ターンごとの入力が約 8K に削減されます。 節約複合: 次の 10 回 つまり、送信していないトークンが 100 万個あります。

パターン 4: 参照資料のフルファイル読み取りに対する RAG

エージェントが必要とする可能性があるため、毎ターン 3 つのファイル全体を送信するのが最も目立つ形式です。 無駄の。 最も関連性の高い 5 つの 180 トークン チャンク カット参照を返すベクトル ストア ルックアップ 対象を絞った質問の正確性を維持しながら、コンテキストを 60 ~ 80% 向上させます。

経験則: 3K トークン未満のファイルは直接挿入されます。 10K トークンを超えるファイルはチャンク化され、 取得されました。 間にあるファイルは、エージェントが全体をスキャンするか、ファイルを検索するかによって異なります。 特定の機能。 API 仕様、ドキュメント サイト、構成スキーマに関しては、RAG は厳密に もっと良い。 エージェントがアクティブに編集しているファイルについては、インラインに保持します。

パターン 5: 確定的な作業を型指定されたツール呼び出しにオフロードする

最も高価なトークンは、モデルが必要とする問題を推論するために費やされる出力トークンです。 解決を求められたことは一度もありません。 決定的で構造化されたタスクはツールに属します。

  • 電子メール構文と MX と使い捨てチェック
  • 国検出による E.164 への電話解析
  • SSL証明書の有効期限とチェーンの検証
  • JSON スキーマの検証、JSON から TypeScript への変換
  • ハッシュ、UUID 生成、base64 エンコード、タイムスタンプ変換
  • SPF、DMARC、DKIM チェック。 DNS レコードの検索

以前のバージョンでは、通話ごとに最大 2,400 トークンのコストがかかり、場合によっては MX レコードの幻覚が発生します。 その後 このバージョンのコストは約 230 トークンで、型指定されたエンドポイントを呼び出し、スキーマ検証された応答を返します。 の エージェントは、コストの 10% と推論エラーがゼロの場合に同じ情報を取得します。

これは、外部 API がエージェント スタックに適切に収まる場所です。 で終了するツール呼び出し 型指定されたエンドポイントへの単一の HTTP リクエストにより、出力トークンのコストとクラスの両方が削除されます。 幻覚。 Botoi エンドポイントは数行で Claude または OpenAI ツールとしてラップできます。 Botoi MCP サーバーを通じて直接呼び出され、そのうち 49 個が MCP ツールとして公開されます。

パターン 6: タスクの種類ごとに、最も安価な許容可能なモデルにルーティングします。

Opus は、入力トークンごとに 5 倍のソネットと 15 倍の俳句のコストがかかります。 エージェント ループ内のほとんどのタスクには Opus は必要ありません。 分類、抽出、短いツール呼び出しルーティング、および要約圧縮はすべて、 俳句。 Opus はアーキテクチャ上の決定とハードなデバッグのために保管してください。

Opus ですべてのステップを実行していた典型的な混合ワークロード エージェントは、月次の 62% を削減しました。 「計画」タスクのみを Opus にルーティングし、分類/抽出を Haiku にプッシュすることで請求します。 精度 これらのタスクは最初から決定的であったため、回帰はゼロでした。

Claude Advisor ツール パターンはこれをさらに発展させたものです。Sonnet がメイン ループを駆動し、Opus を呼び出します。 特定の決定についてのセカンドオピニオンを求めている中堅世代。 1 つのコール、2 つのモデル、Opus に近い ソネットコストで高品質。

最適化する前に計測する

見えないものを切ることはできません。 エージェントを出荷したらすぐに、実行ごとのトークン統計をログに記録します。 生産:

パイプ runs.jsonl すでにメトリクスに使用しているものに置き換えます。 最初の週のデータ 中央値の 3 倍を消費する少数の実行が表示されます。 これらは再試行ループです。 翌週 では、キャッシュ ウィンドウが経過したためにキャッシュ ミスとなった高価な実行の 2 番目の層が表示されます。 頻度の順ではなく、コストの順に修正してください。

まとめ: パターンごとに期待される節約額

パターン 一般的な節約 発送までの労力
イテレーション + トークンキャップ 病理学的実行では 40 ~ 90% 低 (1 時間)
再利用可能なコンテキストでのプロンプトキャッシュ キャッシュされたブロックの 60 ~ 90% 低 (ブロックごとに 1 行)
テールサマライズ 長時間のセッションでは 30 ~ 70% 中 (圧縮ロジック)
参考資料用のRAG 取得したコンテンツの 60 ~ 80% 中 (ベクター ストアのセットアップ)
確定的な作業のためのツールのオフロード オフロードされたタスクで 70 ~ 95% 低 (ツール定義 + HTTP 呼び出し)
タスクの種類ごとのモデルルーティング 50~80%配合 低(ルーター機能)

6つすべてを積み重ねます。 チームは「Opus 上のすべて、キャッシュなし、フルファイル、40 反復上限」から 「Haiku-Sonnet ルーティング、キャッシュされたシステム プロンプト、RAG、入力ツール、20 反復上限」は定期的に削減されます タスク完了率が同等以上で月々の支出が 70 ~ 85% 削減されます。

重要なポイント

  • 壁時計ではなく、反復とトークンに上限を設けます。 20 反復 / 150K トークンの上限 コストがかかる前に、再試行の嵐を阻止します。
  • 再利用可能なコンテキストをキャッシュ可能としてマークします。 1つ cache_control ラインターン 320K の請求可能トークンから 41K までの 40 コール セッション。
  • 尻尾は俳句で要約し、頭はそのままにします。 古いターンは存在しなくなる ほとんどのエージェントが気づくよりも早く対応できるようになります。
  • 参照資料は送信せずに取得してください。 RAG は入力トークンを 60 ~ 80% 削減します エージェントが編集ではなくスキャンするドキュメント、仕様、およびスキーマの場合。
  • 決定論的な作業をツールで呼び出します。 電子メール検証、DNS ルックアップ、ハッシュ、 JSON変換; どれも推論トークンに値しません。
  • タスクの種類ごとにルートを設定します。 分類/抽出のための俳句、理由のためのソネット、のためのオーパス 計画。 混合料金は 50 ~ 80% 減少し、構造化されたタスクでは精度の低下はゼロです。

Botoi は、150 以上の型指定されたエンドポイントと、あらゆるエージェント ループに接続できる 49 ツールの MCP サーバーを提供します。 推論トークンを HTTP 呼び出しに置き換えるには、決定論的タスクごとに約 230 トークンのコストがかかります 2,000 以上ではなく。 試してみてください インタラクティブ API ドキュメント または、Claude Code、Cursor、または VS Code を MCPサーバー 一つで config ブロックを選択してから、コスト ダッシュボードのトークン ラインが平らになるのを確認します。

FAQ

AI コーディング エージェントはなぜ小さな変更にこれほど多くのトークンを使用するのでしょうか?
コーディング エージェントは、ターンごとに完全な会話履歴を再送信します。 3 つの大きなファイルの読み取りで開始された 30 ターンのセッションでは、ターンごとにそれらの読み取りが送信され、ターン間にエージェントが行うツール呼び出しの数が乗算されます。 人間にとっては些細なタイプミスの修正でも、20 ~ 30 回の往復が発生し、それぞれの往復でモデルがすでに認識しているコンテキストのトークンが 1,000 ~ 1,500 個も含まれます。 算術複合は高速です。
プロンプト キャッシュにより Anthropic 呼び出しはどのくらい節約されますか?
Anthropic のプロンプト キャッシュでは、キャッシュ ヒットの場合は入力トークン レートの 10%、キャッシュ書き込みの場合は 125% が課金されます。 5 分間の TTL 内で 100 回の呼び出しで再利用される 10,000 トークンのシステム プロンプトの場合、キャッシュされた実行のコストはキャッシュされていない実行の約 12% になります。 125% で 1 回の書き込み、10% で 99 回の読み取り。 再利用可能なコンテキストが大きければ大きいほど、節約できる額も大きくなります。
エージェント ループにはどのような反復上限を設定すればよいですか?
単一の論理タスクの反復は 15 ~ 25 回から始めます。 エージェントが 15 回のツール呼び出しで正しい答えに到達できない場合、おそらく 50 回の呼び出しでも正しい答えに到達できないでしょう。 再試行ループまたは幻覚ツールの引数に巻き込まれる可能性が高くなります。 セッションが実時間の制限ではなくトークンのしきい値を超えたときにループを終了するバジェット チェックを追加します。 トークンの支出はドルコストにマッピングされます。 壁掛け時計にはありません。
モデルに答えを計算するよう依頼する代わりに、エージェントから外部 HTTP API を呼び出すことが意味があるのはどのような場合ですか?
タスクが決定的で構造化されている場合: 電子メール検証、電話解析、SSL チェック、base64 デコード、UUID 生成、ハッシュ計算、JSON スキーマ検証。 モデルは、support@acme.com に有効な MX レコードがあるかどうかを推論するために 500 の出力トークンを費やすべきではありません。 型指定されたエンドポイントへの 1 つのツール呼び出しで 30 トークンの答えが返され、ある種の幻覚が除去されます。
RAG は常にファイル全体をコンテキストに押し込むことに勝るものですか?
読み取りがほとんどの参考資料 (ドキュメント、構成スキーマ、API 仕様) については、はい。 5K トークンの RAG 取得に移行したチームは、通常、完全なファイルを送信する場合と比較して、入力トークンを 60 ~ 80% 削減します。 完全にコンテキストに適合する 3K トークン未満の小さなファイルの場合、RAG は節約せずに複雑さを追加します。 ルール: 関連するコンテンツが 3K トークン未満の場合は、それをインライン化します。 トークンが 10,000 個を超えており、エージェントがスライスのみを必要とする場合は、スライスを取得します。

botoiで開発を始めよう

150以上のAPIエンドポイント。検索、テキスト処理、画像生成、開発者ユーティリティに対応。無料プラン、クレジットカード不要。