AI コーディングエージェントはなぜ小さな変更にこれほど多くのトークンを使用するのでしょうか?

コーディングエージェントは、ターンごとに完全な会話履歴を再送信します。 3 つの大きなファイルの読み取りで開始された 30 ターンのセッションでは、ターンごとにそれらの読み取りが送信され、ターン間にエージェントが行うツール呼び出しの数が乗算されます。人間にとっては些細なタイプミスの修正でも、20 ～ 30 回の往復が発生し、それぞれの往復でモデルがすでに認識しているコンテキストのトークンが 1,000 ～ 1,500 個も含まれます。算術複合は高速です。

プロンプトキャッシュにより Anthropic 呼び出しはどのくらい節約されますか?

Anthropic のプロンプトキャッシュでは、キャッシュヒットの場合は入力トークンレートの 10%、キャッシュ書き込みの場合は 125% が課金されます。 5 分間の TTL 内で 100 回の呼び出しで再利用される 10,000 トークンのシステムプロンプトの場合、キャッシュされた実行のコストはキャッシュされていない実行の約 12% になります。 125% で 1 回の書き込み、10% で 99 回の読み取り。再利用可能なコンテキストが大きければ大きいほど、節約できる額も大きくなります。

エージェントループにはどのような反復上限を設定すればよいですか?

単一の論理タスクの反復は 15 ～ 25 回から始めます。エージェントが 15 回のツール呼び出しで正しい答えに到達できない場合、おそらく 50 回の呼び出しでも正しい答えに到達できないでしょう。再試行ループまたは幻覚ツールの引数に巻き込まれる可能性が高くなります。セッションが実時間の制限ではなくトークンのしきい値を超えたときにループを終了するバジェットチェックを追加します。トークンの支出はドルコストにマッピングされます。壁掛け時計にはありません。

モデルに答えを計算するよう依頼する代わりに、エージェントから外部 HTTP API を呼び出すことが意味があるのはどのような場合ですか?

タスクが決定的で構造化されている場合: 電子メール検証、電話解析、SSL チェック、base64 デコード、UUID 生成、ハッシュ計算、JSON スキーマ検証。モデルは、support@acme.com に有効な MX レコードがあるかどうかを推論するために 500 の出力トークンを費やすべきではありません。型指定されたエンドポイントへの 1 つのツール呼び出しで 30 トークンの答えが返され、ある種の幻覚が除去されます。

RAG は常にファイル全体をコンテキストに押し込むことに勝るものですか?

読み取りがほとんどの参考資料 (ドキュメント、構成スキーマ、API 仕様) については、はい。 5K トークンの RAG 取得に移行したチームは、通常、完全なファイルを送信する場合と比較して、入力トークンを 60 ～ 80% 削減します。完全にコンテキストに適合する 3K トークン未満の小さなファイルの場合、RAG は節約せずに複雑さを追加します。ルール: 関連するコンテンツが 3K トークン未満の場合は、それをインライン化します。トークンが 10,000 個を超えており、エージェントがスライスのみを必要とする場合は、スライスを取得します。

Guide

AI エージェントはタイプミスを修正するために 21,000 トークンを消費します: 6 つのコストパターン

Q: AI コーディング エージェントはなぜ小さな変更にこれほど多くのトークンを使用するのでしょうか?

コーディング エージェントは、ターンごとに完全な会話履歴を再送信します。 3 つの大きなファイルの読み取りで開始された 30 ターンのセッションでは、ターンごとにそれらの読み取りが送信され、ターン間にエージェントが行うツール呼び出しの数が乗算されます。 人間にとっては些細なタイプミスの修正でも、20 ～ 30 回の往復が発生し、それぞれの往復でモデルがすでに認識しているコンテキストのトークンが 1,000 ～ 1,500 個も含まれます。 算術複合は高速です。

Q: プロンプト キャッシュにより Anthropic 呼び出しはどのくらい節約されますか?

Anthropic のプロンプト キャッシュでは、キャッシュ ヒットの場合は入力トークン レートの 10%、キャッシュ書き込みの場合は 125% が課金されます。 5 分間の TTL 内で 100 回の呼び出しで再利用される 10,000 トークンのシステム プロンプトの場合、キャッシュされた実行のコストはキャッシュされていない実行の約 12% になります。 125% で 1 回の書き込み、10% で 99 回の読み取り。 再利用可能なコンテキストが大きければ大きいほど、節約できる額も大きくなります。

Q: エージェント ループにはどのような反復上限を設定すればよいですか?

単一の論理タスクの反復は 15 ～ 25 回から始めます。 エージェントが 15 回のツール呼び出しで正しい答えに到達できない場合、おそらく 50 回の呼び出しでも正しい答えに到達できないでしょう。 再試行ループまたは幻覚ツールの引数に巻き込まれる可能性が高くなります。 セッションが実時間の制限ではなくトークンのしきい値を超えたときにループを終了するバジェット チェックを追加します。 トークンの支出はドルコストにマッピングされます。 壁掛け時計にはありません。

2026年4月13日 | 9 min read

文書化されたあるクロードコードセッションでは、1 文字を修正するために 21,000 個の入力トークンが使用されました。トークン代を60～80％削減する6パターンをコードと実数値でご紹介。

Financial charts and pricing data on a screen representing AI token cost tracking — Photo by Austin Distel on Unsplash

Morph の開発者は、21,000 を超える入力トークンを消費したクロードコードセッションを文書化しました。単一文字のタイプミスを修正します。それは、短編小説を読んで気分を変えるのと同じです。手紙。セッションはトークンを書き込み、ターンごとに完全な会話履歴を再送信します。失敗したツール呼び出しを再試行し、エージェントがすでにロードしたのと同じ 3 つのファイルを再読み込みします。 2回。

そのセッションには何も異常はありませんでした。コーディングエージェントは、ツール呼び出しごとに履歴を再送信します。ターンの途中で倍増するため、5 分間のプロンプトキャッシュウィンドウを見逃しがちです。チーム同じワークロードで Claude Code または Cursor を実行すると、10 倍異なるトークン請求額が生成される可能性がありますこの6つのパターンが揃っているかどうかで決まります。

それぞれにコードの変更が加えられ、節約のロックが解除され、実際の数値が示されています。それは切れます。

パターン 1: イテレーションに上限を設け、トークンの予算を強制する

The fastest way to burn tokens is an agent loop with no exit condition. エージェントは 400 を達成しましたエラー、同じ不正な入力で再試行、わずかに異なる不正な入力で再試行、再度再試行、など。反復 40 までに、80,000 トークンを費やしても何も生成されませんでした。

すべてのチュートリアルに付属する無制限のバージョン:

午前 2 時に目覚めないバージョン:

キャップ2個。 1 つは反復に関するもの、もう 1 つは合計トークンに関するものです。反復上限により、再試行の嵐が発生します。のトークンバジェットは、まだ収束中だがドルの時点を過ぎている長時間実行タスクを捕捉します感覚。エージェントが 20 回のツール呼び出しで問題を解決できない場合は、より適切なプロンプトまたは繰り返しを増やすことではなく、より良いツールを。

ログ stats.iterations 並んで stats.inputTokens あなたのメトリクスでパイプライン。 3 ～ 5 回の反復で完了するタスクは正常です。 18 から 20 に固定されたタスクイテレーションは、上限の増加ではなく、即時の書き換えを必要とする再試行の嵐です。

パターン 2: 長い静的コンテキストをキャッシュ可能としてマークする

Anthropic のプロンプトキャッシュは、入力レートの 10% でキャッシュヒット、125% でキャッシュ書き込みを請求します。のために 5 分間の TTL 内の 100 回の呼び出しで再利用される 10,000 トークンのスタイルガイド、キャッシュされた実行キャッシュされていない実行の約 12% のコストがかかります。

追加 cache_control コンテンツブロックまでは 1 行です。見逃すことが最も一般的です実稼働エージェントコードのコストの間違い:

キャッシュの有効期間は 5 分間です。エージェントが 20 分ごとに 1 回電話をかけた場合、キャッシュ料金を支払います償却せずにプレミアムを書き込むと、キャッシュに費用がかかります。エージェントがバーストした場合、 5 分以内に 10 ～ 50 件のコールを行うと、計算は大きく逆転します。

具体的な数字: 8K スタイルガイドを使用した 40 コールのレビューセッション (キャッシュなし) のコストはおよそ 40 * スタイルガイドだけで 8,000 = 320,000 の入力トークン。キャッシュあり: 10,000 (125% での書き込み) + 39 * 800 (10% での読み取り) = 41,200 の請求可能なトークン。これは、再利用可能なブロックが 87% 削減されることになります。

パターン 3: 長いセッションの最後を要約する

セッションのターン 30 で、エージェントはコールごとにターン 1 から 29 を再読み込みします。初期のターン長い間実行可能でなくなったセットアップコンテキストが含まれています。圧縮してください。

Haiku で要約すると、メインループを駆動する同じ高価なモデルではありません。まとめは負ける可能性がある詳細; ファイルパス、関数名、およびエージェントがすでに行った決定を保存するのに十分な量を保持する作った。最後の 6 ターンはそのまま維持されるため、モデルには最新のツール呼び出し結果と機能がまだ残っています。コンテキスト。

ターンあたり 120,000 の入力トークンに達しようとしていたセッションの場合、ターン 1 から 24 までを圧縮 400 トークンの概要にすると、ターンごとの入力が約 8K に削減されます。節約複合: 次の 10 回つまり、送信していないトークンが 100 万個あります。

パターン 4: 参照資料のフルファイル読み取りに対する RAG

エージェントが必要とする可能性があるため、毎ターン 3 つのファイル全体を送信するのが最も目立つ形式です。無駄の。最も関連性の高い 5 つの 180 トークンチャンクカット参照を返すベクトルストアルックアップ対象を絞った質問の正確性を維持しながら、コンテキストを 60 ～ 80% 向上させます。

経験則: 3K トークン未満のファイルは直接挿入されます。 10K トークンを超えるファイルはチャンク化され、取得されました。間にあるファイルは、エージェントが全体をスキャンするか、ファイルを検索するかによって異なります。特定の機能。 API 仕様、ドキュメントサイト、構成スキーマに関しては、RAG は厳密にもっと良い。エージェントがアクティブに編集しているファイルについては、インラインに保持します。

パターン 5: 確定的な作業を型指定されたツール呼び出しにオフロードする

最も高価なトークンは、モデルが必要とする問題を推論するために費やされる出力トークンです。解決を求められたことは一度もありません。決定的で構造化されたタスクはツールに属します。

電子メール構文と MX と使い捨てチェック
国検出による E.164 への電話解析
SSL証明書の有効期限とチェーンの検証
JSON スキーマの検証、JSON から TypeScript への変換
ハッシュ、UUID 生成、base64 エンコード、タイムスタンプ変換
SPF、DMARC、DKIM チェック。 DNS レコードの検索

以前のバージョンでは、通話ごとに最大 2,400 トークンのコストがかかり、場合によっては MX レコードの幻覚が発生します。その後このバージョンのコストは約 230 トークンで、型指定されたエンドポイントを呼び出し、スキーマ検証された応答を返します。のエージェントは、コストの 10% と推論エラーがゼロの場合に同じ情報を取得します。

これは、外部 API がエージェントスタックに適切に収まる場所です。で終了するツール呼び出し型指定されたエンドポイントへの単一の HTTP リクエストにより、出力トークンのコストとクラスの両方が削除されます。幻覚。 Botoi エンドポイントは数行で Claude または OpenAI ツールとしてラップできます。 Botoi MCP サーバーを通じて直接呼び出され、そのうち 49 個が MCP ツールとして公開されます。

パターン 6: タスクの種類ごとに、最も安価な許容可能なモデルにルーティングします。

Opus は、入力トークンごとに 5 倍のソネットと 15 倍の俳句のコストがかかります。エージェントループ内のほとんどのタスクには Opus は必要ありません。分類、抽出、短いツール呼び出しルーティング、および要約圧縮はすべて、俳句。 Opus はアーキテクチャ上の決定とハードなデバッグのために保管してください。

Opus ですべてのステップを実行していた典型的な混合ワークロードエージェントは、月次の 62% を削減しました。「計画」タスクのみを Opus にルーティングし、分類/抽出を Haiku にプッシュすることで請求します。精度これらのタスクは最初から決定的であったため、回帰はゼロでした。

Claude Advisor ツールパターンはこれをさらに発展させたものです。Sonnet がメインループを駆動し、Opus を呼び出します。特定の決定についてのセカンドオピニオンを求めている中堅世代。 1 つのコール、2 つのモデル、Opus に近いソネットコストで高品質。

最適化する前に計測する

見えないものを切ることはできません。エージェントを出荷したらすぐに、実行ごとのトークン統計をログに記録します。生産:

パイプ runs.jsonl すでにメトリクスに使用しているものに置き換えます。最初の週のデータ中央値の 3 倍を消費する少数の実行が表示されます。これらは再試行ループです。翌週では、キャッシュウィンドウが経過したためにキャッシュミスとなった高価な実行の 2 番目の層が表示されます。頻度の順ではなく、コストの順に修正してください。

まとめ: パターンごとに期待される節約額

パターン	一般的な節約	発送までの労力
イテレーション + トークンキャップ	病理学的実行では 40 ～ 90%	低 (1 時間)
再利用可能なコンテキストでのプロンプトキャッシュ	キャッシュされたブロックの 60 ～ 90%	低 (ブロックごとに 1 行)
テールサマライズ	長時間のセッションでは 30 ～ 70%	中 (圧縮ロジック)
参考資料用のRAG	取得したコンテンツの 60 ～ 80%	中 (ベクターストアのセットアップ)
確定的な作業のためのツールのオフロード	オフロードされたタスクで 70 ～ 95%	低 (ツール定義 + HTTP 呼び出し)
タスクの種類ごとのモデルルーティング	50～80％配合	低（ルーター機能）

6つすべてを積み重ねます。チームは「Opus 上のすべて、キャッシュなし、フルファイル、40 反復上限」から「Haiku-Sonnet ルーティング、キャッシュされたシステムプロンプト、RAG、入力ツール、20 反復上限」は定期的に削減されますタスク完了率が同等以上で月々の支出が 70 ～ 85% 削減されます。

重要なポイント

壁時計ではなく、反復とトークンに上限を設けます。 20 反復 / 150K トークンの上限コストがかかる前に、再試行の嵐を阻止します。
再利用可能なコンテキストをキャッシュ可能としてマークします。 1つ cache_control ラインターン 320K の請求可能トークンから 41K までの 40 コールセッション。
尻尾は俳句で要約し、頭はそのままにします。 古いターンは存在しなくなるほとんどのエージェントが気づくよりも早く対応できるようになります。
参照資料は送信せずに取得してください。 RAG は入力トークンを 60 ～ 80% 削減しますエージェントが編集ではなくスキャンするドキュメント、仕様、およびスキーマの場合。
決定論的な作業をツールで呼び出します。 電子メール検証、DNS ルックアップ、ハッシュ、 JSON変換; どれも推論トークンに値しません。
タスクの種類ごとにルートを設定します。 分類/抽出のための俳句、理由のためのソネット、のためのオーパス計画。混合料金は 50 ～ 80% 減少し、構造化されたタスクでは精度の低下はゼロです。

Botoi は、150 以上の型指定されたエンドポイントと、あらゆるエージェントループに接続できる 49 ツールの MCP サーバーを提供します。推論トークンを HTTP 呼び出しに置き換えるには、決定論的タスクごとに約 230 トークンのコストがかかります 2,000 以上ではなく。試してみてくださいインタラクティブ API ドキュメントまたは、Claude Code、Cursor、または VS Code を MCPサーバー一つで config ブロックを選択してから、コストダッシュボードのトークンラインが平らになるのを確認します。

FAQ

AI コーディングエージェントはなぜ小さな変更にこれほど多くのトークンを使用するのでしょうか?: コーディングエージェントは、ターンごとに完全な会話履歴を再送信します。 3 つの大きなファイルの読み取りで開始された 30 ターンのセッションでは、ターンごとにそれらの読み取りが送信され、ターン間にエージェントが行うツール呼び出しの数が乗算されます。人間にとっては些細なタイプミスの修正でも、20 ～ 30 回の往復が発生し、それぞれの往復でモデルがすでに認識しているコンテキストのトークンが 1,000 ～ 1,500 個も含まれます。算術複合は高速です。
プロンプトキャッシュにより Anthropic 呼び出しはどのくらい節約されますか?: Anthropic のプロンプトキャッシュでは、キャッシュヒットの場合は入力トークンレートの 10%、キャッシュ書き込みの場合は 125% が課金されます。 5 分間の TTL 内で 100 回の呼び出しで再利用される 10,000 トークンのシステムプロンプトの場合、キャッシュされた実行のコストはキャッシュされていない実行の約 12% になります。 125% で 1 回の書き込み、10% で 99 回の読み取り。再利用可能なコンテキストが大きければ大きいほど、節約できる額も大きくなります。
エージェントループにはどのような反復上限を設定すればよいですか?: 単一の論理タスクの反復は 15 ～ 25 回から始めます。エージェントが 15 回のツール呼び出しで正しい答えに到達できない場合、おそらく 50 回の呼び出しでも正しい答えに到達できないでしょう。再試行ループまたは幻覚ツールの引数に巻き込まれる可能性が高くなります。セッションが実時間の制限ではなくトークンのしきい値を超えたときにループを終了するバジェットチェックを追加します。トークンの支出はドルコストにマッピングされます。壁掛け時計にはありません。
モデルに答えを計算するよう依頼する代わりに、エージェントから外部 HTTP API を呼び出すことが意味があるのはどのような場合ですか?: タスクが決定的で構造化されている場合: 電子メール検証、電話解析、SSL チェック、base64 デコード、UUID 生成、ハッシュ計算、JSON スキーマ検証。モデルは、support@acme.com に有効な MX レコードがあるかどうかを推論するために 500 の出力トークンを費やすべきではありません。型指定されたエンドポイントへの 1 つのツール呼び出しで 30 トークンの答えが返され、ある種の幻覚が除去されます。
RAG は常にファイル全体をコンテキストに押し込むことに勝るものですか?: 読み取りがほとんどの参考資料 (ドキュメント、構成スキーマ、API 仕様) については、はい。 5K トークンの RAG 取得に移行したチームは、通常、完全なファイルを送信する場合と比較して、入力トークンを 60 ～ 80% 削減します。完全にコンテキストに適合する 3K トークン未満の小さなファイルの場合、RAG は節約せずに複雑さを追加します。ルール: 関連するコンテンツが 3K トークン未満の場合は、それをインライン化します。トークンが 10,000 個を超えており、エージェントがスライスのみを必要とする場合は、スライスを取得します。

botoiで開発を始めよう

150以上のAPIエンドポイント。検索、テキスト処理、画像生成、開発者ユーティリティに対応。無料プラン、クレジットカード不要。

APIドキュメントを見るすべてのツールを見る