Cloudflare Code Mode MCP : arrêtez de payer 1 million de tokens pour décrire vos outils
Cloudflare a réduit les définitions des outils MCP de 1,17 million de jetons à 1 000 en permettant aux agents d'écrire du code sur une surface API typée. Voici comment fonctionne le modèle et quand l’utiliser.
Un serveur MCP de 49 outils brûle environ 29 000 jetons d'entrée avant que votre utilisateur ne tape un seul caractère. Un serveur de 2 500 outils, soit à peu près ce que Cloudflare livre en interne, en brûle 1,17 million. Cela est la fenêtre de saisie complète de Claude Opus consacrée à décrire les outils, sans résoudre le problème de l'utilisateur. Chaque tour paie à nouveau la facture. Chaque nouvelle tentative rapporte à nouveau. À grande échelle, l'élément de campagne pour Les « définitions d'outils » dépassent l'élément de campagne « travail réel ».
En avril 2026, Cloudflare a été expédié Mode Code MCP, un modèle qui s'effondre 1,17 million de jetons à environ 1 000 jetons, soit une réduction de 99,9 %. L'astuce est simple : arrêtez décrivant les outils du modèle. Donnez au modèle une API typée et un bac à sable, et laissez-le écrire le code qui appelle les outils. Voici pourquoi le modèle classique fuit les jetons, comment le mode Code le corrige, et quand vous devriez prendre la peine de changer.
Le problème du jeton 1,17 M
Classic MCP envoie des définitions d'outils dans le cadre du contexte système à chaque requête. Chaque outil porte un nom, une description, un schéma d'entrée et souvent un schéma de sortie. Un exemple compact pour un outil de recherche météo, cela ressemble à ceci :
Ce schéma exécute environ 600 jetons une fois que vous comptez la surcharge structurelle JSON, le descriptions dont le modèle a besoin pour choisir l'outil et les valeurs d'énumération. Multiplier par 49 outils sur le serveur MCP de Botoi et vous atterrissez à environ 29 400 jetons par tour. Un 10 tours la conversation paie cela 10 fois, car le modèle n'a pas de mémoire entre les tours et le Orchestrator expédie l’ensemble du package à chaque fois. Adaptez le nombre d'outils à celui de Cloudflare surface API interne (environ 2 500 points de terminaison) et le coût par tour atteint 1,17 million de jetons, qui déborde même la fenêtre Opus de 1 million de jetons.
Comptez votre propre empreinte en un seul appel. Le compteur de jetons de Botoi accepte n'importe quelle chaîne ; nourrissez-le un schéma de l'outil et vous obtenez le nombre exact de jetons Anthropic :
Comment le mode Code MCP inverse le modèle
Les humains ne lisent pas les schémas API avant chaque appel. Vous lisez la documentation une fois, ouvrez un éditeur et écrire du code qui importe des fonctions. Le runtime gère la répartition. Le mode Code donne au modèle le même configuration.
L'agent s'exécute dans un isolat V8 (le bac à sable Workers de Cloudflare). Les outils MCP s'affichent tels que saisis fonctions sur un objet importé. Le modèle voit une déclaration de type TypeScript, pas un JSON diffusion du schéma. Lorsque l'utilisateur demande « quelle est la qualité de l'air là où je vis », le modèle écrit un programme court :
// The agent writes this. The runtime compiles and executes it.
// Only the two functions it calls ever hit the wire.
import { botoi } from "@botoi/mcp";
export async function run(input: { city: string }) {
const weather = await botoi.weather.current({ city: input.city });
const air = await botoi.airQuality.check({
lat: weather.lat,
lon: weather.lon,
});
return {
city: input.city,
temp: weather.temp_c,
aqi: air.aqi,
advice: air.aqi > 100 ? "stay inside" : "go for a walk",
};
}
Le runtime compile l'extrait, l'exécute à l'intérieur de l'isolat et seules les deux fonctions qu'il contient
appelle en fait (botoi.weather.current et botoi.airQuality.check)
toucher le réseau. Le modèle n'a jamais vu le schéma des 47 autres outils, car il n'a jamais
il le fallait. Le fichier de type se trouve sur le disque une fois et informe le compilateur, pas la fenêtre contextuelle.
Le mode Code est plus proche de la façon dont vous écririez un script sur un SDK que de la façon dont vous piloteriez un formulaire. La sortie du modèle est du code, le travail du runtime consiste à exécuter le code en toute sécurité et le coût du réseau correspond à des appels réels plutôt qu'à des appels hypothétiques.
Les calculs sur le serveur à 49 outils de Botoi
Le serveur MCP de Botoi expose 49 outils sélectionnés dans les domaines de la recherche, du texte, du développeur, de l'image et de la sécurité. catégories. Le tableau ci-dessous compare le MCP classique au mode Code pour une charge de travail typique : Conversations en 10 tours, 10 000 conversations par mois, tarification des entrées Opus.
| Métrique | MCP classique | Mode Code MCP |
|---|---|---|
| Jetons par tour (descriptions des outils) | 29 400 | 0 (type fichier chargé une fois) |
| Charge de surface de type démarrage à froid | 0 | ~1 000 jetons |
| Coût de conversation de 10 tours dans les descriptions | 294 000 jetons | 1 000 jetons |
| Mode de défaillance principal | Le modèle choisit le mauvais outil | Le code généré est lancé au moment de l'exécution |
| Débogabilité | Trace d'appel d'outil | Trace de pile et trace d'appel d'outil |
| Cas d'utilisation le mieux adapté | <10 outils, clients de bureau | Plus de 50 outils, flux de travail en plusieurs étapes |
| Latence ajoutée | Aucune | 10-50 ms compilation + démarrage isolé |
Aux tarifs d'entrée Opus (environ 15 $ par million de jetons), le modèle classique coûte environ 0,44 $ par million de jetons. Conversation en 10 tours uniquement avec des jetons de description d'outil. Le mode Code réduit cela à des fractions de cent. Sur 10 000 conversations par mois, vous économisez environ 4 400 $ et en récupérez 2,9 milliards des jetons de budget contextuel pour le travail qui compte.
Mesurez votre propre serveur aujourd'hui avant de vous engager dans l'un ou l'autre modèle :
Quand le mode Code en vaut la peine, quand ce n'est pas le cas
Le mode Code n’est pas gratuit. Le bac à sable ajoute 10 à 50 millisecondes de démarrage de compilation et d'isolation par tour. Le code généré peut être lancé, ce qui signifie que vous avez besoin d'une logique de nouvelle tentative et d'un chemin de secours. Le débogage passe de « le modèle a choisi le mauvais outil » à « le modèle a écrit du code qui fait référence à un symbole non défini. Votre pile d'observabilité doit capturer à la fois le code source et l'outil l'appelle déclenché.
Restez fidèle au MCP classique lorsque :
- Vous exposez moins de 10 outils et l’empreinte du schéma est inférieure à 6 000 jetons.
- Votre client cible est Claude Desktop, Cursor ou VS Code (ils ne parlent que le MCP classique).
- La boucle d'agent est mono-shot : un message utilisateur, un appel d'outil, une réponse.
- Les budgets de latence sont serrés et vous ne pouvez pas dépenser les 10 à 50 ms de surcharge de compilation.
Passez en mode Code lorsque :
- Vous exposez 50 outils ou plus, ou l'empreinte de votre schéma dépasse 15 000 jetons.
- Les workflows enchaînent plus de 3 appels d'outils, car le mode Code évite de redécrire les outils à chaque saut.
- Vous possédez le runtime (Cloudflare Agents, Mastra, LangGraph) et pouvez compiler la sortie de l'agent.
- Le plus grand poste du projet de loi Anthropic indique « jetons d'entrée système ».
Un chemin de migration sans réécrire votre serveur
Vous n'êtes pas obligé de choisir un seul modèle. La plupart des équipes doivent exécuter les deux et acheminer les clients par capacité. Voici un chemin en trois étapes qui évite de réécrire votre serveur MCP :
Étape 1 : mesurer. Récupérez le manifeste de votre outil MCP et exécutez-le via le jeton compteur. Si vous franchissez 15 000 jetons, le mode Code sera payant. Si vous avez moins de 6 000, sautez le reste de ce post.
Étape 2 : exposez une surface typée à côté de MCP. Vous disposez déjà d'une OpenAPI
spec si vous exécutez une API HTTP. Générez des types TypeScript à partir de celui-ci (le SDK de botoi fait cela ; voir
packages/sdk-typescript) et hébergez le résultat .d.ts déposer à un
URL stable. Les environnements d'exécution en mode Code récupèrent ce fichier une fois par session et l'utilisent comme importation
cible. Votre point de terminaison MCP continue de servir les clients classiques sans changement.
Étape 3 : acheminement par client. Claude Desktop, Cursor et VS Code continuent de frapper
/mcp et recevez des schémas d'outils classiques. Frameworks d'agents (agents Cloudflare,
Mastra, LangGraph) a atteint un nouveau /code-mode route qui renvoie la définition du type et
un handle d’exécution. Même serveur, même logique métier, deux protocoles.
Botoi expédie les deux formes aujourd'hui. Le point de terminaison MCP classique à api.botoi.com/mcp sert 49 outils sélectionnés avec des schémas JSON complets pour les clients de bureau. Le SDK tapé à api.botoi.com/docs donne aux frameworks d'agents une surface d'importation de fichier unique. Le niveau gratuit (5 req/min, pas de clé) couvre explorations; Le niveau développeur (1 000 demandes/jour avec une clé gratuite) couvre les boucles d’agent de production. Si Le poste le plus important de la facture Anthropic est constitué par les descriptions d'outils, le changement s'amortit dans le première semaine.
FAQ
- Pourquoi l'injection de schémas d'outils gaspille-t-elle des jetons alors que le modèle ne peut appeler qu'un seul outil ?
- MCP classique envoie le schéma JSON de chaque outil dans le contexte système à chaque tour, de sorte que le modèle paie le coût total, qu'il appelle un outil ou aucun. Le modèle ne peut pas savoir quels outils existent à moins que vous le lui disiez, et que vous le lui disiez avec des schémas. Le mode Code remplace cette diffusion par une définition de type unique que le runtime consulte uniquement lorsque le code généré importe réellement une fonction.
- Le mode Code fonctionne-t-il avec Claude Desktop ou Cursor aujourd'hui ?
- Pas encore. L'intégration MCP de Claude Desktop, Cursor et VS Code utilise tous le protocole MCP classique, ils reçoivent donc toujours des schémas d'outils en ligne. Le mode Code de Cloudflare cible les frameworks d'agents (Cloudflare Agents, Mastra, LangGraph) dans lesquels vous contrôlez le runtime et pouvez compiler la sortie de l'agent avant de l'exécuter.
- Qu'en est-il de la sécurité : laisser le modèle écrire du code n'est-il pas risqué ?
- C'est pourquoi le mode Code exécute le code généré dans un isolat V8 sans accès au système de fichiers, sans accès au réseau en dehors de la surface API typée et avec un budget CPU. Le bac à sable a la même forme que Cloudflare utilise pour les travailleurs. Le modèle ne peut pas plus échapper à l'isolement qu'un utilisateur ne peut échapper à un onglet de navigateur.
- Puis-je utiliser à la fois Classic MCP et Code Mode à partir du même serveur ?
- Oui, et vous devriez le faire. Conservez le point de terminaison MCP classique pour les clients de bureau et les éditeurs qui nécessitent une découverte d'outils sans configuration. Ajoutez une surface typée (types OpenAPI ou TypeScript) pour les infrastructures d'agent qui exécutent le mode Code. Botoi le fait aujourd'hui : le point de terminaison MCP sert Claude Desktop et la spécification OpenAPI alimente le SDK que les frameworks d'agents importent en tant que définition de type.
- Combien cela permet-il réellement d’économiser sur la facture anthropique ?
- Pour un serveur de 49 outils au débit d'entrée Opus d'Anthropic, 29 400 jetons par tour coûtent environ 0,44 $ par conversation de 10 tours rien qu'en jetons de description d'outil. Le mode Code réduit cela à une charge unique de type 1K jeton, réduisant ainsi le coût de description par conversation à une fraction de centime. Avec 10 000 conversations par mois, la différence est d’environ 4 400 $.
Commencez a construire avec botoi
150+ endpoints API pour la recherche, le traitement de texte, la generation d'images et les utilitaires pour developpeurs. Offre gratuite, sans carte bancaire.