MCP del modo de código de Cloudflare: deja de pagar 1 millón de tokens para describir tus herramientas
Cloudflare redujo las definiciones de herramientas MCP de 1,17 millones de tokens a 1 000 al permitir que los agentes escriban código en una superficie API escrita. Así es como funciona el patrón y cuándo usarlo.
Un servidor MCP de 49 herramientas quema alrededor de 29.000 tokens de entrada antes de que el usuario escriba un solo carácter. Un servidor de 2.500 herramientas, que es aproximadamente lo que Cloudflare envía internamente, quema 1,17 millones. eso Es la ventana de entrada completa de Claude Opus que se dedica a describir herramientas, no a resolver el problema del usuario. Cada turno vuelve a pagar la cuenta. Cada reintento lo paga nuevamente. A escala, la línea de pedido para Las "definiciones de herramientas" superan la línea de pedido de "trabajo real".
En abril de 2026 se envió Cloudflare Modo de código MCP, un patrón que colapsa 1,17 millones de huellas de tokens a alrededor de 1.000 tokens, un recorte del 99,9%. El truco es simple: detente describir herramientas al modelo. Proporcione al modelo una API escrita y una zona de pruebas, y déjelo escribir el código que llama a las herramientas. He aquí por qué el patrón clásico pierde tokens, cómo lo soluciona el Modo Código, y cuándo deberías molestarte en cambiar.
El problema de los 1,17 millones de tokens
Classic MCP envía definiciones de herramientas como parte del contexto del sistema en cada solicitud. Cada herramienta lleva un nombre, una descripción, un esquema de entrada y, a menudo, un esquema de salida. Un ejemplo compacto para una herramienta de búsqueda del clima se ve así:
Ese esquema ejecuta alrededor de 600 tokens una vez que se cuenta la sobrecarga estructural JSON, el descripciones que el modelo necesita para elegir la herramienta y los valores de enumeración. Multiplicar por 49 seleccionados herramientas en el servidor MCP de botoi y obtienes aproximadamente 29,400 tokens por turno. Un 10 turno la conversación paga eso 10 veces, porque el modelo no tiene memoria entre turnos y el Orchestrator envía el paquete completo cada vez. Escale el recuento de herramientas al máximo de Cloudflare superficie API interna (alrededor de 2500 puntos finales) y el costo por turno alcanza los 1,17 millones de tokens, que desborda incluso la ventana Opus de 1 millón de tokens.
Cuente su propia huella en una sola llamada. El contador de tokens de Botoi acepta cualquier cadena; alimentarlo un esquema de herramienta y obtendrá el recuento exacto de tokens antrópicos:
Cómo Code Mode MCP invierte el patrón
Los humanos no leen los esquemas API antes de cada llamada. Lees los documentos una vez, abres un editor y escribir código que importe funciones. El tiempo de ejecución maneja el envío. El modo de código le da al modelo la misma configuración.
El agente se ejecuta dentro de un aislamiento V8 (zona de pruebas de trabajadores de Cloudflare). Las herramientas MCP aparecen tal como se escriben funciones en un objeto importado. El modelo ve una declaración de tipo TypeScript, no un JSON difusión del esquema. Cuando el usuario pregunta "¿cuál es la calidad del aire donde vivo?", el modelo escribe un programa corto:
// The agent writes this. The runtime compiles and executes it.
// Only the two functions it calls ever hit the wire.
import { botoi } from "@botoi/mcp";
export async function run(input: { city: string }) {
const weather = await botoi.weather.current({ city: input.city });
const air = await botoi.airQuality.check({
lat: weather.lat,
lon: weather.lon,
});
return {
city: input.city,
temp: weather.temp_c,
aqi: air.aqi,
advice: air.aqi > 100 ? "stay inside" : "go for a walk",
};
}
El tiempo de ejecución compila el fragmento, lo ejecuta dentro del aislamiento y solo las dos funciones que contiene.
en realidad llama (botoi.weather.current y botoi.airQuality.check)
toca la red. El modelo nunca vio el esquema de las otras 47 herramientas, porque nunca
necesario. El archivo de tipo se ubica en el disco una vez e informa al compilador, no a la ventana contextual.
El modo de código se parece más a cómo escribirías un script en un SDK que a cómo manejarías un formulario. La salida del modelo es código, el trabajo del tiempo de ejecución es ejecutar el código de forma segura y el costo de la red se asigna a llamadas reales en lugar de hipotéticas.
Las matemáticas en el servidor de 49 herramientas de botoi
El servidor MCP de Botoi expone 49 herramientas seleccionadas en búsqueda, texto, desarrollador, imagen y seguridad. categorías. La siguiente tabla compara el MCP clásico con el modo de código para una carga de trabajo típica: Conversaciones de 10 turnos, 10.000 conversaciones por mes, precio de entrada Opus.
| Métrica | MCP clásico | Modo de código MCP |
|---|---|---|
| Fichas por turno (descripciones de herramientas) | 29.400 | 0 (escriba el archivo cargado una vez) |
| Carga superficial tipo arranque en frío | 0 | ~1000 fichas |
| Costo de conversación de 10 turnos en descripciones | 294.000 fichas | 1.000 fichas |
| Modo de falla primaria | El modelo elige la herramienta equivocada | El código generado se lanza en tiempo de ejecución. |
| Depuración | Seguimiento de llamada de herramienta | Seguimiento de pila más seguimiento de llamada de herramienta |
| Caso de uso más adecuado | <10 herramientas, clientes de escritorio | Más de 50 herramientas, flujos de trabajo de varios pasos |
| Latencia agregada | Ninguna | 10-50 ms de compilación + inicio aislado |
A las tarifas de entrada de Opus (aproximadamente 15 dólares por millón de tokens), el patrón clásico cuesta alrededor de 0,44 dólares por millón. Conversación de 10 turnos solo en tokens de descripción de herramientas. El modo de código lo reduce a fracciones de un centavo. En 10.000 conversaciones al mes, ahorras alrededor de 4.400 dólares y recuperas 2.900 millones muestras de presupuesto contextual para el trabajo que importa.
Mida su propio servidor hoy antes de comprometerse con cualquiera de los patrones:
Cuando Code Mode vale la pena, cuando no lo es
El modo de código no es gratuito. La zona de pruebas agrega de 10 a 50 milisegundos de compilación y aislamiento del inicio. por turno. El código generado puede generar errores, lo que significa que necesita una lógica de reintento y una ruta alternativa. La depuración cambia de "el modelo eligió la herramienta equivocada" a "el modelo escribió código que hizo referencia a un símbolo indefinido." Su pila de observabilidad debe capturar tanto el código fuente y la herramienta lo llama activado.
Quédese con el MCP clásico cuando:
- Expone menos de 10 herramientas y la huella del esquema es inferior a 6000 tokens.
- Su cliente objetivo es Claude Desktop, Cursor o VS Code (solo hablan MCP clásico).
- El ciclo del agente es de una sola vez: un mensaje de usuario, una llamada a una herramienta, una respuesta.
- Los presupuestos de latencia son ajustados y no se pueden gastar los 10-50 ms de sobrecarga de compilación.
Cambie al modo de código cuando:
- Expone 50 o más herramientas, o la huella de su esquema supera los 15.000 tokens.
- Los flujos de trabajo encadenan más de 3 llamadas a herramientas, porque el modo de código evita volver a describir las herramientas en cada salto.
- Usted es propietario del tiempo de ejecución (Agentes de Cloudflare, Mastra, LangGraph) y puede compilar la salida del agente.
- La partida más grande del proyecto de ley Anthropic dice "tokens de entrada del sistema".
Una ruta de migración sin reescribir su servidor
No tienes que elegir un patrón. La mayoría de los equipos deberían ejecutar ambos y enrutar a los clientes por capacidad. Aquí hay una ruta de tres pasos que evita reescribir su servidor MCP:
Paso 1: medir. Obtenga el manifiesto de su herramienta MCP y ejecútelo a través del token contador. Si cruzas 15.000 tokens, el Modo Código dará sus frutos. Si tiene menos de 6000, omita el resto de esta publicación.
Paso 2: exponga una superficie mecanografiada junto al MCP. Ya tienes una OpenAPI
spec si ejecuta una API HTTP. Genere tipos de TypeScript a partir de él (el SDK de botoi hace esto; consulte
packages/sdk-typescript) Y alojar la resultante .d.ts presentar en un
URL estable. Los tiempos de ejecución del modo de código obtienen este archivo una vez por sesión y lo utilizan como importación
objetivo. Su punto final MCP sigue atendiendo a clientes clásicos sin cambios.
Paso 3: ruta por cliente. Claude Desktop, Cursor y VS Code siguen teniendo éxito
/mcp y recibir esquemas de herramientas clásicos. Marcos de agentes (agentes de Cloudflare,
Mastra, LangGraph) alcanzó un nuevo /code-mode ruta que devuelve la definición de tipo y
un identificador de tiempo de ejecución. Mismo servidor, misma lógica empresarial, dos protocolos.
Botoi envía ambas formas hoy. El punto final MCP clásico en api.botoi.com/mcp ofrece 49 herramientas seleccionadas con esquemas JSON completos para clientes de escritorio. El SDK escrito en api.botoi.com/docs brinda a los marcos de agentes una superficie de importación de un solo archivo. Coberturas de nivel gratuito (5 solicitudes/min, sin clave) exploración; El nivel de desarrollador (1000 solicitudes/día con una clave gratuita) cubre los bucles de agentes de producción. si El elemento más importante del proyecto de ley Anthropic son las descripciones de herramientas, el cambio se amortiza por sí solo en el primera semana.
FAQ
- ¿Por qué la inyección de esquemas de herramientas desperdicia tokens cuando el modelo solo puede llamar a una herramienta?
- Classic MCP envía el esquema JSON de cada herramienta al contexto del sistema en cada turno, por lo que el modelo paga el costo total ya sea que llame a una herramienta o a ninguna. El modelo no puede saber qué herramientas existen a menos que usted se lo diga y se lo diga con esquemas. El modo de código reemplaza esa transmisión con una única definición de tipo que el tiempo de ejecución consulta solo cuando el código generado realmente importa una función.
- ¿Funciona Code Mode con Claude Desktop o Cursor hoy?
- Aún no. La integración MCP de Claude Desktop, Cursor y VS Code habla el protocolo MCP clásico, por lo que aún reciben esquemas de herramientas en línea. El modo de código de Cloudflare se dirige a marcos de agentes (Cloudflare Agents, Mastra, LangGraph) donde usted controla el tiempo de ejecución y puede compilar la salida del agente antes de ejecutarlo.
- ¿Qué pasa con la seguridad? ¿No es arriesgado dejar que el modelo escriba código?
- Lo es, razón por la cual Code Mode ejecuta el código generado dentro de un aislamiento V8 sin acceso al sistema de archivos, sin acceso a la red fuera de la superficie API escrita y con un presupuesto de CPU. La zona de pruebas tiene la misma forma que usa Cloudflare para los trabajadores. El modelo no puede escapar del aislamiento más de lo que un usuario puede escapar de una pestaña del navegador.
- ¿Puedo usar Classic MCP y Code Mode desde el mismo servidor?
- Sí, y deberías hacerlo. Mantenga el punto final MCP clásico para editores y clientes de escritorio que necesitan descubrimiento de herramientas sin configuración. Agregue una superficie escrita (tipos OpenAPI o TypeScript) para los marcos de agentes que ejecutan el modo de código. Botoi hace esto hoy: el punto final MCP sirve a Claude Desktop y la especificación OpenAPI impulsa el SDK que los marcos de agentes importan como una definición de tipo.
- ¿Cuánto ahorra esto realmente en la factura de Anthropic?
- Para un servidor de 49 herramientas con la tasa de entrada Opus de Anthropic, 29.400 tokens por turno cuestan alrededor de $0,44 por conversación de 10 turnos solo en tokens de descripción de herramientas. Code Mode lo reduce a una carga única de tipo token de 1K, lo que reduce el costo de descripción por conversación a una fracción de centavo. Con 10.000 conversaciones al mes, la diferencia es de aproximadamente 4.400 dólares.
Empieza a construir con botoi
150+ endpoints de API para consultas, procesamiento de texto, generacion de imagenes y utilidades para desarrolladores. Plan gratuito, sin tarjeta de credito.