CloudflareコードモードMCP:ツールを説明するために100万トークンの支払いを停止する
Cloudflareは、エージェントが型指定されたAPIサーフェスに対してコードを記述できるようにすることで、MCPツール定義を117万トークンから1Kトークンに削減しました。 このパターンがどのように機能し、いつ使用するかは次のとおりです。
49 ツールの MCP サーバーは、ユーザーが 1 文字を入力する前に約 29,000 の入力トークンを書き込みます。 2,500 ツールのサーバーは、Cloudflare が内部的に出荷するものとほぼ同じで、117 万を消費します。 それ クロード・オーパスの完全な入力ウィンドウは、ユーザーの問題を解決するのではなく、ツールの説明に費やされています。 毎ターン、再び請求額が支払われます。 再試行するたびに再度料金が発生します。 大規模な広告申込情報は、 「ツール定義」が「実際の作業」の項目を上回っています。
2026 年 4 月に Cloudflare が出荷されました コードモードMCP、それが崩れるパターン 117 万トークンのフットプリントが約 1,000 トークンになり、99.9% 削減されました。 コツは簡単です: 停止する ツールをモデルに説明します。 モデルに型指定された API とサンドボックスを与え、モデルに ツールを呼び出すコード。 古典的なパターンでトークンが漏洩する理由と、コードモードがそれを修正する方法を説明します。 わざわざ切り替える必要があるとき。
117万トークン問題
Classic MCP は、すべてのリクエストでシステム コンテキストの一部としてツール定義を送信します。 各ツール 名前、説明、入力スキーマ、そして多くの場合は出力スキーマを持ちます。 コンパクトな例 天気検索ツールの場合は次のようになります。
JSON 構造のオーバーヘッドを考慮すると、その 1 つのスキーマは約 600 個のトークンを実行します。 モデルがツールを選択するために必要な説明と列挙値。 49 を掛けて厳選 botoi の MCP サーバー上のツールを使用すると、1 ターンあたり約 29,400 トークンが得られます。 10ターン モデルにはターンとターンの間の記憶がないため、会話はその 10 倍の価値があります。 Orchestrator は毎回バンドル全体を出荷します。 ツール数をCloudflareの最大数までスケールする 内部 API サーフェス (約 2,500 エンドポイント) とターンあたりのコストは 117 万トークンに達します。 これは 1M トークンの Opus ウィンドウでもオーバーフローします。
1 回の通話で自分自身のフットプリントをカウントします。 Botoi のトークン カウンターは任意の文字列を受け入れます。 それに餌をやる ツール スキーマを使用すると、正確な Anthropic トークン数が得られます。
コード モード MCP がパターンを反転する方法
人間は呼び出すたびに API スキーマを読み取るわけではありません。 一度ドキュメントを読み、エディタを開いて、 関数をインポートするコードを作成します。 ランタイムはディスパッチを処理します。 コードモードはモデルに次のことを与えます。 同じセットアップ。
エージェントは、V8 分離 (Cloudflare のワーカー サンドボックス) 内で実行されます。 MCP ツールは入力したとおりに表示されます インポートされたオブジェクトに対する関数。 モデルは JSON ではなく TypeScript の型宣言を認識します。 スキーマブロードキャスト。 ユーザーが「私が住んでいる場所の空気の質はどうですか」と尋ねると、モデルは次のように書きます。 ショートプログラム:
// The agent writes this. The runtime compiles and executes it.
// Only the two functions it calls ever hit the wire.
import { botoi } from "@botoi/mcp";
export async function run(input: { city: string }) {
const weather = await botoi.weather.current({ city: input.city });
const air = await botoi.airQuality.check({
lat: weather.lat,
lon: weather.lon,
});
return {
city: input.city,
temp: weather.temp_c,
aqi: air.aqi,
advice: air.aqi > 100 ? "stay inside" : "go for a walk",
};
}
ランタイムはスニペットをコンパイルし、isolate 内で実行し、2 つの関数のみを実行します。
実際に(botoi.weather.current そして botoi.airQuality.check)
ネットワークに触れます。 モデルは他の 47 ツールのスキーマを決して参照しませんでした。
必要がありました。 タイプ ファイルはディスク上に一度置かれ、コンテキスト ウィンドウではなくコンパイラに通知します。
コード モードは、フォームを操作する方法よりも、SDK に対してスクリプトを記述する方法に近いです。 モデルの出力はコードであり、ランタイムの仕事はコードを安全に実行することであり、ネットワーク コストは 仮想の呼び出しではなく実際の呼び出しにマッピングします。
Botoi の 49 ツール サーバーの計算
Botoi の MCP サーバーは、ルックアップ、テキスト、開発者、画像、セキュリティにわたる 49 の厳選されたツールを公開します カテゴリー。 以下の表は、一般的なワークロードのクラシック MCP とコード モードを比較しています。 10 ターン会話、月間 10,000 会話、Opus 入力価格。
| メトリック | クラシック MCP | コードモードMCP |
|---|---|---|
| ターンごとのトークン (ツールの説明) | 29,400 | 0 (一度ロードされたタイプのファイル) |
| コールドスタート型 面荷重 | 0 | ~1,000 トークン |
| 説明文に10ターン会話コストあり | 294,000 トークン | 1,000トークン |
| 一次故障モード | モデルが間違ったツールを選択しました | 生成されたコードが実行時にスローされる |
| デバッグ可能性 | ツール呼び出しトレース | スタック トレースとツール呼び出しトレース |
| 最適なユースケース | <10 ツール、デスクトップクライアント | 50 以上のツール、複数ステップのワークフロー |
| レイテンシーの追加 | なし | 10 ~ 50 ミリ秒のコンパイル + 起動の分離 |
Opus の入力レート (100 万トークンあたり約 15 ドル) では、古典的なパターンのコストは 1 トークンあたり約 0.44 ドルです。 道具説明トークンだけで10ターン会話。 コードモードはそれを小数点以下に落とします。 セント。 月に 10,000 件の会話を行うと、約 4,400 ドルを節約し、29 億ドルを回収できます 重要な作業のためのコンテキスト予算のトークン。
いずれかのパターンに取り組む前に、今すぐ自分のサーバーを測定してください。
コードモードに価値がある場合とそうでない場合
コードモードは無料ではありません。 サンドボックスにより、コンパイルと分離の起動に 10 ~ 50 ミリ秒が追加されます。 ターンごとに。 生成されたコードはスローされる可能性があるため、再試行ロジックとフォールバック パスが必要になります。 デバッグは、「モデルが間違ったツールを選択した」から「モデルが次のようなコードを書いた」に移行します。 未定義のシンボルを参照しました。」 可観測性スタックは両方のソース コードをキャプチャする必要があります。 そしてツールはそれをトリガーと呼びます。
次の場合は従来の MCP を使用してください。
- 公開するツールの数は 10 未満で、スキーマのフットプリントは 6,000 トークン未満です。
- ターゲット クライアントは、Claude Desktop、Cursor、または VS Code です (これらはクラシック MCP のみを話します)。
- エージェント ループはシングルショットです。1 つのユーザー メッセージ、1 つのツール呼び出し、1 つの応答です。
- レイテンシの予算は厳しく、10 ~ 50 ミリ秒のコンパイル オーバーヘッドを費やすことはできません。
次の場合にコード モードに切り替えます。
- 50 個以上のツールを公開しているか、スキーマ フットプリントが 15,000 トークンを超えています。
- コード モードではホップごとにツールの再記述が回避されるため、ワークフローは 3 つ以上のツール呼び出しを連鎖させます。
- あなたはランタイム (Cloudflare Agents、Mastra、LangGraph) を所有しており、エージェントの出力をコンパイルできます。
- Anthropic 法案の最大の項目には「システム入力トークン」と書かれています。
サーバーを書き換えない移行パス
1 つのパターンを選択する必要はありません。 ほとんどのチームは両方を実行し、機能ごとにクライアントをルーティングする必要があります。 MCP サーバーの書き換えを回避するための 3 つのステップのパスを次に示します。
ステップ 1: 測定します。 MCP ツールのマニフェストを取得し、トークンを介して実行します。 カウンター。 15,000 トークンを超えると、コード モードの効果が得られます。 6,000 未満の場合はスキップしてください この投稿の残りの部分。
ステップ 2: MCP と一緒に型付きサーフェスを公開します。 すでに OpenAPI をお持ちです
HTTP API を実行する場合の仕様。 そこから TypeScript 型を生成します (botoi の SDK がこれを行います; を参照してください)
packages/sdk-typescript) を作成し、その結果をホストします .d.ts ファイルを
安定したURL。 コード モード ランタイムは、セッションごとにこのファイルを 1 回フェッチし、インポートとして使用します。
ターゲット。 MCP エンドポイントは、従来のクライアントに変更なくサービスを提供し続けます。
ステップ 3: クライアントによるルーティング。 Claude Desktop、Cursor、VS Code が引き続きヒットする
/mcp 古典的なツールのスキーマを受け取ります。 エージェントフレームワーク(Cloudflareエージェント、
Mastra、LangGraph) の新ヒット /code-mode 型定義を返すルートと
ランタイムハンドル。 同じサーバー、同じビジネス ロジック、2 つのプロトコル。
Botoi は両方の形状を本日出荷します。 クラシック MCP エンドポイント api.botoi.com/mcp デスクトップ クライアント向けに、完全な JSON スキーマを備えた 49 の厳選されたツールを提供します。 型指定された SDK は次のとおりです。 api.botoi.com/docs エージェント フレームワークに単一ファイルのインポート サーフェスを提供します。 無料利用枠 (5 リクエスト/分、キーなし) のカバー 探検; 開発者レベル (無料キーで 1,000 リクエスト/日) は、実稼働エージェント ループをカバーします。 もし Anthropic法案の最大の項目はツールの説明であり、切り替えることで元が取れます。 最初の週。
FAQ
- モデルが呼び出すツールが 1 つだけであるにもかかわらず、ツール スキーマの挿入によってトークンが無駄になるのはなぜですか?
- Classic MCP は、すべてのツールの JSON スキーマを毎ターンシステム コンテキストに送信するため、モデルは、ツールを 1 つ呼び出すかまったく呼び出さないかに関係なく、全額を支払います。 モデルは、ユーザーが指示しない限り、どのツールが存在するかを知ることができず、スキーマを使用してモデルに指示します。 コード モードでは、生成されたコードが実際に関数をインポートする場合にのみ、ランタイムが参照する単一の型定義でそのブロードキャストを置き換えます。
- コード モードは現在、Claude Desktop または Cursor で動作しますか?
- まだ。 Claude Desktop、Cursor、および VS Code の MCP 統合はすべて従来の MCP プロトコルを使用するため、引き続きインライン ツール スキーマを受け取ります。 Cloudflareのコードモードは、ランタイムを制御し、実行前にエージェントの出力をコンパイルできるエージェントフレームワーク(Cloudflareエージェント、Mastra、LangGraph)をターゲットとしています。
- セキュリティについてはどうですか。モデルにコードを書かせるのは危険ではないでしょうか?
- これが、コード モードがファイル システム アクセスなし、型指定された API サーフェス外部のネットワーク アクセスなし、および CPU バジェットを使用せずに、生成されたコードを V8 分離内で実行する理由です。 サンドボックスは、Cloudflareがワーカーに使用するのと同じ形状です。 ユーザーがブラウザーのタブから逃れることができるのと同じように、モデルも分離から逃れることはできません。
- 同じサーバーからクラシック MCP とコード モードの両方を使用できますか?
- はい、そうすべきです。 ゼロ構成ツールの検出が必要なデスクトップ クライアントとエディターには、クラシック MCP エンドポイントを維持します。 コード モードを実行するエージェント フレームワークに型付きサーフェス (OpenAPI または TypeScript タイプ) を追加します。 Botoi は現在これを行っています。MCP エンドポイントは Claude Desktop にサービスを提供し、OpenAPI 仕様はエージェント フレームワークがタイプ定義としてインポートする SDK を強化します。
- これにより実際に人類の請求額はどれくらい節約されるのでしょうか?
- Anthropic の Opus 入力レートの 49 ツール サーバーの場合、ツール説明トークンだけで 1 ターンあたり 29,400 トークンのコストが 10 ターンの会話あたり約 0.44 ドルかかります。 コード モードでは、これを 1 回限りの 1K トークン タイプの負荷に集約し、会話ごとの説明コストを 1 セントの数分の 1 に削減します。 1 か月あたり 10,000 回の会話の場合、その差は約 4,400 ドルになります。
botoiで開発を始めよう
150以上のAPIエンドポイント。検索、テキスト処理、画像生成、開発者ユーティリティに対応。無料プラン、クレジットカード不要。