Warum werden beim Einfügen von Tool-Schemata Token verschwendet, wenn das Modell möglicherweise nur ein Tool aufruft?

Das klassische MCP sendet das JSON-Schema jedes Tools bei jedem Schritt in den Systemkontext, sodass das Modell die vollen Kosten zahlt, unabhängig davon, ob es ein Tool aufruft oder keines. Das Modell kann nicht wissen, welche Tools vorhanden sind, es sei denn, Sie teilen es ihm mit, und zwar mithilfe von Schemata. Der Codemodus ersetzt diese Übertragung durch eine einzelne Typdefinition, die die Laufzeit nur dann konsultiert, wenn der generierte Code tatsächlich eine Funktion importiert.

Funktioniert der Codemodus heute mit Claude Desktop oder Cursor?

Noch nicht. Claude Desktop, Cursor und die MCP-Integration von VS Code sprechen alle das klassische MCP-Protokoll, sodass sie weiterhin Inline-Tool-Schemata erhalten. Der Codemodus von Cloudflare zielt auf Agent-Frameworks (Cloudflare Agents, Mastra, LangGraph) ab, bei denen Sie die Laufzeit steuern und die Ausgabe des Agenten kompilieren können, bevor Sie ihn ausführen.

Was ist mit der Sicherheit? Ist es nicht riskant, das Modell Code schreiben zu lassen?

Aus diesem Grund führt der Codemodus den generierten Code in einem V8-Isolat aus, ohne Dateisystemzugriff, ohne Netzwerkzugriff außerhalb der typisierten API-Oberfläche und mit einem CPU-Budget. Die Sandbox hat die gleiche Form, die Cloudflare für Worker verwendet. Das Modell kann dem Isolat genauso wenig entkommen, wie ein Benutzer einem Browser-Tab entkommen kann.

Kann ich sowohl den klassischen MCP als auch den Codemodus auf demselben Server verwenden?

Ja, und das sollten Sie auch. Behalten Sie den klassischen MCP-Endpunkt für Desktop-Clients und Redakteure bei, die eine Tool-Erkennung ohne Konfiguration benötigen. Fügen Sie eine typisierte Oberfläche (OpenAPI- oder TypeScript-Typen) für Agent-Frameworks hinzu, die den Codemodus ausführen. Botoi tut dies heute: Der MCP-Endpunkt bedient Claude Desktop, und die OpenAPI-Spezifikation unterstützt das SDK, das Agent-Frameworks als Typdefinition importieren.

Wie viel spart das tatsächlich bei der Anthropic-Rechnung?

Für einen Server mit 49 Werkzeugen und der Opus-Eingaberate von Anthropic kosten 29.400 Token pro Runde allein in Form von Werkzeugbeschreibungs-Tokens etwa 0,44 US-Dollar pro 10-Runden-Konversation. Der Code-Modus reduziert dies auf eine einmalige 1K-Token-Last, wodurch die Beschreibungskosten pro Konversation auf einen Bruchteil eines Cents gesenkt werden. Bei 10.000 Gesprächen pro Monat beträgt die Differenz etwa 4.400 US-Dollar.

Guide

Cloudflare Code Mode MCP: Zahlen Sie keine 1 Mio. Token mehr, um Ihre Tools zu beschreiben

19. Apr. 2026 | 7 min read

Cloudflare reduzierte die MCP-Tool-Definitionen von 1,17 Mio. Token auf 1.000, indem es Agenten ermöglichte, Code auf einer typisierten API-Oberfläche zu schreiben. Hier erfahren Sie, wie das Muster funktioniert und wann es verwendet werden sollte.

Code on a monitor representing MCP tool schemas and token usage — Photo by Fotis Fotopoulos on Unsplash

Ein MCP-Server mit 49 Tools verbrennt etwa 29.000 Eingabetokens, bevor Ihr Benutzer ein einziges Zeichen eingibt. Ein Server mit 2.500 Tools, was ungefähr dem entspricht, was Cloudflare intern ausliefert, verbrennt 1,17 Millionen. Das ist das vollständige Eingabefenster von Claude Opus, das mit der Beschreibung von Werkzeugen und nicht mit der Lösung des Benutzerproblems verbracht wird. Jeder Zug zahlt die Rechnung erneut. Jeder erneute Versuch zahlt sich erneut aus. Im Maßstab ist die Werbebuchung für „Werkzeugdefinitionen“ übersteigt die Position für „tatsächliche Arbeit“.

Im April 2026 wurde Cloudflare ausgeliefert Codemodus MCP, ein Muster, das das zum Erliegen bringt 1,17 Millionen Token-Fußabdruck auf rund 1.000 Token, eine Reduzierung um 99,9 %. Der Trick ist einfach: Stoppen Beschreibung von Werkzeugen für das Modell. Geben Sie dem Modell eine typisierte API und eine Sandbox und lassen Sie es schreiben Code, der die Tools aufruft. Hier erfahren Sie, warum das klassische Muster Token verliert und wie der Code-Modus das Problem behebt. und wann Sie sich die Mühe machen sollten, zu wechseln.

Das 1,17-Millionen-Token-Problem

Das klassische MCP sendet bei jeder Anfrage Werkzeugdefinitionen als Teil des Systemkontexts. Jedes Werkzeug trägt einen Namen, eine Beschreibung, ein Eingabeschema und oft auch ein Ausgabeschema. Ein kompaktes Beispiel für ein Wettersuchtool sieht das so aus:

Dieses eine Schema führt etwa 600 Token aus, wenn man den strukturellen JSON-Overhead berücksichtigt Beschreibungen, die das Modell zum Auswählen des Werkzeugs benötigt, und die Aufzählungswerte. Mit 49 kuratiert multiplizieren Tools auf dem MCP-Server von Botois und Sie landen bei etwa 29.400 Token pro Runde. Eine 10-Runde Das Gespräch zahlt das 10-fache aus, da das Modell kein Gedächtnis zwischen den Runden und dem hat Orchestrator versendet jedes Mal das gesamte Paket. Skalieren Sie die Anzahl der Tools auf die volle Anzahl von Cloudflare interne API-Oberfläche (ca. 2.500 Endpunkte) und die Kosten pro Runde belaufen sich auf 1,17 Millionen Token, was sogar das 1M-Token-Opus-Fenster überfüllt.

Zählen Sie Ihren eigenen Fußabdruck in einem einzigen Anruf. Botois Token-Zähler akzeptiert jede Zeichenfolge; Füttere es mit einem Tool-Schema und Sie erhalten die genaue Anthropic-Token-Anzahl:

Wie Code Mode MCP das Muster umdreht

Menschen lesen API-Schemata nicht vor jedem Aufruf. Sie lesen die Dokumente einmal, öffnen einen Editor und Schreiben Sie Code, der Funktionen importiert. Die Laufzeit übernimmt den Versand. Der Codemodus gibt dem Modell die gleiches Setup.

Der Agent wird in einem V8-Isolat (Workers-Sandbox von Cloudflare) ausgeführt. MCP-Tools werden wie eingegeben angezeigt Funktionen für ein importiertes Objekt. Das Modell sieht eine TypeScript-Typdeklaration, kein JSON Schemaübertragung. Wenn der Benutzer fragt: „Wie ist die Luftqualität dort, wo ich lebe“, schreibt das Modell: Kurzprogramm:

// The agent writes this. The runtime compiles and executes it.
// Only the two functions it calls ever hit the wire.
import { botoi } from "@botoi/mcp";

export async function run(input: { city: string }) {
  const weather = await botoi.weather.current({ city: input.city });
  const air = await botoi.airQuality.check({
    lat: weather.lat,
    lon: weather.lon,
  });

  return {
    city: input.city,
    temp: weather.temp_c,
    aqi: air.aqi,
    advice: air.aqi > 100 ? "stay inside" : "go for a walk",
  };
}

Die Laufzeitumgebung kompiliert das Snippet, führt es innerhalb des Isolats aus und nur die beiden führen es aus ruft tatsächlich an (botoi.weather.current Und botoi.airQuality.check) Berühren Sie das Netzwerk. Das Modell hat das Schema für die anderen 47 Tools nie gesehen, weil es nie musste. Die Typdatei liegt einmal auf der Festplatte und informiert den Compiler, nicht das Kontextfenster.

Der Codemodus ähnelt eher der Art und Weise, wie Sie ein Skript für ein SDK schreiben würden, als der Art und Weise, wie Sie ein Formular steuern würden. Die Ausgabe des Modells ist Code, die Aufgabe der Laufzeit besteht darin, Code sicher auszuführen, und die Netzwerkkosten Zuordnungen zu realen statt hypothetischen Anrufen.

Die Mathematik auf botois 49-Tool-Server

Der MCP-Server von Botoi stellt 49 kuratierte Tools für Suche, Text, Entwickler, Bild und Sicherheit bereit Kategorien. Die folgende Tabelle vergleicht das klassische MCP mit dem Codemodus für eine typische Arbeitslast: 10-Runden-Gespräche, 10.000 Gespräche pro Monat, Opus-Eingabepreis.

Metrisch	Klassisches MCP	Codemodus MCP
Token pro Spielzug (Werkzeugbeschreibungen)	29.400	0 (Typ Datei einmal geladen)
Kaltstartartige Flächenbelastung	0	~1.000 Token
Gesprächskosten für 10 Runden in Beschreibungen	294.000 Token	1.000 Token
Primärer Fehlermodus	Model wählt falsches Werkzeug	Generierter Code löst zur Laufzeit aus
Debugbarkeit	Tool-Call-Trace	Stack-Trace plus Tool-Call-Trace
Best-fit-Anwendungsfall	<10 Tools, Desktop-Clients	Über 50 Tools, mehrstufige Arbeitsabläufe
Latenz hinzugefügt	Keiner	10–50 ms beim Kompilieren + Isolieren des Startvorgangs

Bei Opus-Eingaberaten (ungefähr 15 US-Dollar pro Million Token) kostet das klassische Muster etwa 0,44 US-Dollar pro 10-Runden-Konversation allein in Werkzeugbeschreibungs-Tokens. Der Code-Modus reduziert dies auf Bruchteile von a Cent. Bei 10.000 Gesprächen pro Monat sparen Sie rund 4.400 US-Dollar und erhalten 2,9 Milliarden zurück Tokens des Kontextbudgets für die Arbeit, die wichtig ist.

Messen Sie noch heute Ihren eigenen Server, bevor Sie sich auf eines der Muster festlegen:

Wann sich der Code-Modus lohnt, wann nicht

Der Codemodus ist nicht kostenlos. Die Sandbox verlängert den Kompilierungs- und Isolationsstart um 10 bis 50 Millisekunden pro Runde. Generierter Code kann auslösen, was bedeutet, dass Sie eine Wiederholungslogik und einen Fallback-Pfad benötigen. Das Debuggen verschiebt sich von „Das Modell hat das falsche Tool ausgewählt“ zu „Das Modell hat Code geschrieben, der…“ verwies auf ein undefiniertes Symbol. Ihr Observability-Stack muss beide Quellcodes erfassen und das Tool nennt es ausgelöst.

Bleiben Sie beim klassischen MCP, wenn:

Sie stellen weniger als 10 Tools bereit und der Schema-Footprint beträgt weniger als 6.000 Token.
Ihr Zielclient ist Claude Desktop, Cursor oder VS Code (sie sprechen nur klassisches MCP).
Die Agentenschleife ist eine Single-Shot-Schleife: eine Benutzernachricht, ein Tool-Aufruf, eine Antwort.
Die Latenzbudgets sind knapp und Sie können den Kompilierungsaufwand von 10–50 ms nicht aufwenden.

Wechseln Sie in den Codemodus, wenn:

Sie stellen 50 oder mehr Tools bereit oder Ihr Schema-Footprint überschreitet 15.000 Token.
Workflows verketten mehr als 3 Tool-Aufrufe, da der Codemodus die Neubeschreibung von Tools bei jedem Hop vermeidet.
Sie besitzen die Laufzeit (Cloudflare Agents, Mastra, LangGraph) und können die Agentenausgabe kompilieren.
Der größte Posten des Anthropic-Gesetzes lautet „Systemeingabe-Token“.

Ein Migrationspfad, ohne Ihren Server neu zu schreiben

Sie müssen sich nicht für ein Muster entscheiden. Die meisten Teams sollten beides ausführen und Clients nach ihrer Fähigkeit weiterleiten. Hier ist ein dreistufiger Weg, der ein Umschreiben Ihres MCP-Servers vermeidet:

Schritt 1: Messen. Rufen Sie Ihr MCP-Tool-Manifest ab und führen Sie es über das Token aus Zähler. Wenn Sie 15.000 Token überschreiten, zahlt sich der Code-Modus aus. Wenn Sie unter 6.000 sind, überspringen Sie das Rest dieses Beitrags.

Schritt 2: Legen Sie eine beschriftete Oberfläche neben MCP frei. Sie haben bereits eine OpenAPI spec, wenn Sie eine HTTP-API ausführen. Generieren Sie daraus TypeScript-Typen (Botois SDK erledigt dies; siehe packages/sdk-typescript) und hosten Sie das Ergebnis .d.ts Datei bei a stabile URL. Laufzeiten im Codemodus rufen diese Datei einmal pro Sitzung ab und verwenden sie als Import Ziel. Ihr MCP-Endpunkt bedient weiterhin klassische Clients unverändert.

Schritt 3: Route nach Client. Claude Desktop, Cursor und VS Code sind weiterhin erfolgreich /mcp und erhalten klassische Werkzeugschemata. Agent-Frameworks (Cloudflare Agents, Mastra, LangGraph) hat ein neues Ergebnis erzielt /code-mode Route, die die Typdefinition zurückgibt und ein Laufzeithandle. Gleicher Server, gleiche Geschäftslogik, zwei Protokolle.

Botoi versendet heute beide Formen. Der klassische MCP-Endpunkt bei api.botoi.com/mcp stellt 49 kuratierte Tools mit vollständigen JSON-Schemas für Desktop-Clients bereit. Das typisierte SDK unter api.botoi.com/docs Bietet Agent-Frameworks eine Importoberfläche für einzelne Dateien. Kostenloses Kontingent (5 Anforderungen/Min., kein Schlüssel). Erkundung; Die Entwicklerstufe (1.000 Anforderungen/Tag mit einem kostenlosen Schlüssel) deckt Produktionsagentenschleifen ab. Wenn Der größte Posten des Anthropic-Gesetzes sind Werkzeugbeschreibungen, der Wechsel zahlt sich in der aus erste Woche.

FAQ

Warum werden beim Einfügen von Tool-Schemata Token verschwendet, wenn das Modell möglicherweise nur ein Tool aufruft?: Das klassische MCP sendet das JSON-Schema jedes Tools bei jedem Schritt in den Systemkontext, sodass das Modell die vollen Kosten zahlt, unabhängig davon, ob es ein Tool aufruft oder keines. Das Modell kann nicht wissen, welche Tools vorhanden sind, es sei denn, Sie teilen es ihm mit, und zwar mithilfe von Schemata. Der Codemodus ersetzt diese Übertragung durch eine einzelne Typdefinition, die die Laufzeit nur dann konsultiert, wenn der generierte Code tatsächlich eine Funktion importiert.
Funktioniert der Codemodus heute mit Claude Desktop oder Cursor?: Noch nicht. Claude Desktop, Cursor und die MCP-Integration von VS Code sprechen alle das klassische MCP-Protokoll, sodass sie weiterhin Inline-Tool-Schemata erhalten. Der Codemodus von Cloudflare zielt auf Agent-Frameworks (Cloudflare Agents, Mastra, LangGraph) ab, bei denen Sie die Laufzeit steuern und die Ausgabe des Agenten kompilieren können, bevor Sie ihn ausführen.
Was ist mit der Sicherheit? Ist es nicht riskant, das Modell Code schreiben zu lassen?: Aus diesem Grund führt der Codemodus den generierten Code in einem V8-Isolat aus, ohne Dateisystemzugriff, ohne Netzwerkzugriff außerhalb der typisierten API-Oberfläche und mit einem CPU-Budget. Die Sandbox hat die gleiche Form, die Cloudflare für Worker verwendet. Das Modell kann dem Isolat genauso wenig entkommen, wie ein Benutzer einem Browser-Tab entkommen kann.
Kann ich sowohl den klassischen MCP als auch den Codemodus auf demselben Server verwenden?: Ja, und das sollten Sie auch. Behalten Sie den klassischen MCP-Endpunkt für Desktop-Clients und Redakteure bei, die eine Tool-Erkennung ohne Konfiguration benötigen. Fügen Sie eine typisierte Oberfläche (OpenAPI- oder TypeScript-Typen) für Agent-Frameworks hinzu, die den Codemodus ausführen. Botoi tut dies heute: Der MCP-Endpunkt bedient Claude Desktop, und die OpenAPI-Spezifikation unterstützt das SDK, das Agent-Frameworks als Typdefinition importieren.
Wie viel spart das tatsächlich bei der Anthropic-Rechnung?: Für einen Server mit 49 Werkzeugen und der Opus-Eingaberate von Anthropic kosten 29.400 Token pro Runde allein in Form von Werkzeugbeschreibungs-Tokens etwa 0,44 US-Dollar pro 10-Runden-Konversation. Der Code-Modus reduziert dies auf eine einmalige 1K-Token-Last, wodurch die Beschreibungskosten pro Konversation auf einen Bruchteil eines Cents gesenkt werden. Bei 10.000 Gesprächen pro Monat beträgt die Differenz etwa 4.400 US-Dollar.

Starte mit botoi zu entwickeln

150+ API-Endpunkte für Abfragen, Textverarbeitung, Bildgenerierung und Entwickler-Tools. Kostenloser Tarif, keine Kreditkarte nötig.

API-Dokumentation ansehen Alle Tools ansehen