Pular para o conteúdo
Guide

Cloudflare Code Mode MCP: pare de pagar 1 milhão de tokens para descrever suas ferramentas

| 7 min read

A Cloudflare reduziu as definições da ferramenta MCP de 1,17 milhão de tokens para 1 mil, permitindo que os agentes escrevessem código em uma superfície de API digitada. Veja como o padrão funciona e quando usá-lo.

Code on a monitor representing MCP tool schemas and token usage
Photo by Fotis Fotopoulos on Unsplash

Um servidor MCP de 49 ferramentas queima cerca de 29.000 tokens de entrada antes que o usuário digite um único caractere. Um servidor de 2.500 ferramentas, que é aproximadamente o que a Cloudflare envia internamente, queima 1,17 milhão. Isso é a janela de entrada completa que Claude Opus passou descrevendo ferramentas, não resolvendo o problema do usuário. Cada turno paga a conta novamente. Cada nova tentativa paga novamente. Em escala, o item de linha para "definições de ferramentas" ultrapassa o item de linha para "trabalho real".

Em abril de 2026, o Cloudflare foi lançado Modo de código MCP, um padrão que colapsa isso Pegada de 1,17 milhão de tokens para cerca de 1.000 tokens, um corte de 99,9%. O truque é simples: pare descrever ferramentas para o modelo. Dê ao modelo uma API digitada e um sandbox e deixe-o escrever o código que chama as ferramentas. Aqui está porque o padrão clássico vaza tokens, como o Code Mode corrige isso, e quando você deve se preocupar em mudar.

O problema do token de 1,17 milhão

O MCP clássico envia definições de ferramentas como parte do contexto do sistema em cada solicitação. Cada ferramenta carrega um nome, uma descrição, um esquema de entrada e, muitas vezes, um esquema de saída. Um exemplo compacto para uma ferramenta de pesquisa meteorológica é assim:

Esse esquema executa cerca de 600 tokens, uma vez que você conta a sobrecarga estrutural JSON, o descrições que o modelo precisa para escolher a ferramenta e os valores enum. Multiplique por 49 curadoria ferramentas no servidor MCP do botoi e você chega a cerca de 29.400 tokens por turno. Uma volta de 10 conversa paga isso 10 vezes, porque o modelo não tem memória entre os turnos e o orquestrador sempre envia o pacote inteiro. Escale a contagem de ferramentas até o total da Cloudflare superfície interna da API (cerca de 2.500 endpoints) e o custo por turno atinge 1,17 milhão de tokens, que transborda até mesmo a janela Opus de 1 milhão de tokens.

Conte sua própria pegada em uma única chamada. O contador de tokens do Botoi aceita qualquer string; alimente-o um esquema da ferramenta e você obtém a contagem exata de tokens antrópicos:

Como o modo de código MCP inverte o padrão

Os humanos não leem os esquemas da API antes de cada chamada. Você lê os documentos uma vez, abre um editor e escrever código que importe funções. O tempo de execução trata do envio. O modo de código dá ao modelo a mesma configuração.

O agente é executado dentro de um isolamento V8 (sandbox Workers da Cloudflare). As ferramentas MCP aparecem conforme digitadas funções em um objeto importado. O modelo vê uma declaração de tipo TypeScript, não um JSON transmissão de esquema. Quando o usuário pergunta “qual é a qualidade do ar onde moro”, o modelo escreve uma programa curto:

// The agent writes this. The runtime compiles and executes it.
// Only the two functions it calls ever hit the wire.
import { botoi } from "@botoi/mcp";

export async function run(input: { city: string }) {
  const weather = await botoi.weather.current({ city: input.city });
  const air = await botoi.airQuality.check({
    lat: weather.lat,
    lon: weather.lon,
  });

  return {
    city: input.city,
    temp: weather.temp_c,
    aqi: air.aqi,
    advice: air.aqi > 100 ? "stay inside" : "go for a walk",
  };
}

O tempo de execução compila o snippet, executa-o dentro do isolado e apenas as duas funções dele na verdade liga (botoi.weather.current e botoi.airQuality.check) toque na rede. O modelo nunca viu o esquema das outras 47 ferramentas, porque nunca precisava. O arquivo de tipo fica no disco uma vez e informa o compilador, não a janela de contexto.

O modo de código está mais próximo de como você escreveria um script em um SDK do que de como você conduziria um formulário. A saída do modelo é o código, a tarefa do tempo de execução é executar o código com segurança e o custo da rede mapeia para chamadas reais em vez de hipotéticas.

A matemática no servidor de 49 ferramentas do botoi

O servidor MCP da Botoi expõe 49 ferramentas selecionadas em pesquisa, texto, desenvolvedor, imagem e segurança categorias. A tabela abaixo compara o MCP clássico com o modo de código para uma carga de trabalho típica: Conversas em 10 turnos, 10.000 conversas por mês, preço de entrada Opus.

Métrica MCP clássico Modo de código MCP
Tokens por turno (descrições de ferramentas) 29.400 0 (tipo de arquivo carregado uma vez)
Carga superficial do tipo partida a frio 0 ~1.000 tokens
Custo de conversa de 10 turnos nas descrições 294.000 fichas 1.000 fichas
Modo de falha primário Modelo escolhe ferramenta errada O código gerado é lançado em tempo de execução
Depuração Rastreamento de chamada de ferramenta Rastreamento de pilha mais rastreamento de chamada de ferramenta
Caso de uso mais adequado <10 ferramentas, clientes de desktop Mais de 50 ferramentas, fluxos de trabalho em várias etapas
Latência adicionada Nenhum 10-50 ms de compilação + inicialização isolada

Nas taxas de entrada da Opus (cerca de US$ 15 por milhão de tokens), o padrão clássico custa cerca de US$ 0,44 por Conversa de 10 turnos apenas em tokens de descrição de ferramenta. O modo de código reduz isso para frações de um cento. Com 10.000 conversas por mês, você economiza cerca de US$ 4.400 e recupera 2,9 bilhões tokens de orçamento de contexto para o trabalho que importa.

Meça seu próprio servidor hoje antes de se comprometer com qualquer um dos padrões:

Quando o modo de código vale a pena, quando não vale

O modo de código não é gratuito. O sandbox adiciona de 10 a 50 milissegundos de compilação e inicialização isolada por turno. O código gerado pode ser lançado, o que significa que você precisa de uma lógica de nova tentativa e de um caminho de retorno. A depuração muda de "o modelo escolheu a ferramenta errada" para "o modelo escreveu o código que referenciou um símbolo indefinido." Sua pilha de observabilidade precisa capturar o código-fonte e a ferramenta o chama de acionado.

Fique com o MCP clássico quando:

  • Você expõe menos de 10 ferramentas e o espaço ocupado pelo esquema é inferior a 6.000 tokens.
  • Seu cliente-alvo é Claude Desktop, Cursor ou VS Code (eles falam apenas MCP clássico).
  • O loop do agente é único: uma mensagem do usuário, uma chamada de ferramenta, uma resposta.
  • Os orçamentos de latência são apertados e você não pode gastar a sobrecarga de compilação de 10 a 50 ms.

Mude para o modo de código quando:

  • Você expõe 50 ou mais ferramentas ou a área ocupada pelo seu esquema ultrapassa 15.000 tokens.
  • Os fluxos de trabalho encadeiam mais de 3 chamadas de ferramentas, porque o Modo de Código evita a redescrição de ferramentas em cada salto.
  • Você possui o tempo de execução (Agentes Cloudflare, Mastra, LangGraph) e pode compilar a saída do agente.
  • O maior item de linha do projeto de lei Antrópico diz “tokens de entrada do sistema”.

Um caminho de migração sem reescrever seu servidor

Você não precisa escolher um padrão. A maioria das equipes deve executar ambos e encaminhar os clientes por capacidade. Aqui está um caminho de três etapas que evita reescrever seu servidor MCP:

Etapa 1: medir. Obtenha o manifesto da sua ferramenta MCP e execute-o por meio do token contador. Se você ultrapassar 15.000 tokens, o Modo Código terá retorno. Se você tiver menos de 6.000 anos, pule o resto desta postagem.

Passo 2: exponha uma superfície digitada ao lado do MCP. Você já tem uma OpenAPI spec se você executar uma API HTTP. Gere tipos TypeScript a partir dele (o SDK do botoi faz isso; consulte packages/sdk-typescript) e hospede o resultado .d.ts arquivo em um URL estável. Os tempos de execução do modo de código buscam esse arquivo uma vez por sessão e o usam como importação alvo. Seu endpoint MCP continua atendendo clientes clássicos inalterados.

Etapa 3: roteamento por cliente. Claude Desktop, Cursor e VS Code continuam atingindo /mcp e receba esquemas de ferramentas clássicos. Estruturas de agentes (Agentes Cloudflare, Mastra, LangGraph) atingiu um novo /code-mode rota que retorna a definição do tipo e um identificador de tempo de execução. Mesmo servidor, mesma lógica de negócios, dois protocolos.

Botoi envia os dois formatos hoje. O endpoint MCP clássico em api.botoi.com/mcp oferece 49 ferramentas selecionadas com esquemas JSON completos para clientes de desktop. O SDK digitado em api.botoi.com/docs fornece às estruturas de agente uma superfície de importação de arquivo único. Cobertura do nível gratuito (5 req/min, sem chave) exploração; o nível de desenvolvedor (1.000 req/dia com uma chave gratuita) cobre loops de agente de produção. Se o maior item de linha do projeto de lei antrópico são as descrições das ferramentas, a troca se paga no primeira semana.

FAQ

Por que a injeção de esquemas de ferramentas desperdiça tokens quando o modelo pode chamar apenas uma ferramenta?
O MCP clássico envia o esquema JSON de cada ferramenta para o contexto do sistema a cada turno, de modo que o modelo paga o custo total, independentemente de chamar uma ferramenta ou nenhuma. O modelo não pode saber quais ferramentas existem, a menos que você o informe, e você o informe com esquemas. O Modo de Código substitui essa transmissão por uma definição de tipo único que o tempo de execução consulta somente quando o código gerado realmente importa uma função.
O Code Mode funciona com Claude Desktop ou Cursor hoje?
Ainda não. A integração MCP do Claude Desktop, Cursor e VS Code fala o protocolo MCP clássico, portanto, ainda recebem esquemas de ferramentas embutidos. O modo de código da Cloudflare tem como alvo estruturas de agente (Cloudflare Agents, Mastra, LangGraph) onde você controla o tempo de execução e pode compilar a saída do agente antes de executá-lo.
E quanto à segurança, deixar o modelo escrever código não é arriscado?
É por isso que o Code Mode executa o código gerado dentro de um V8 isolado, sem acesso ao sistema de arquivos, sem acesso à rede fora da superfície da API digitada e com orçamento de CPU. A sandbox tem o mesmo formato que a Cloudflare usa para Workers. O modelo não pode escapar do isolamento, assim como um usuário não pode escapar de uma guia do navegador.
Posso usar o Classic MCP e o Code Mode no mesmo servidor?
Sim, e você deveria. Mantenha o endpoint MCP clássico para clientes de desktop e editores que precisam de descoberta de ferramenta de configuração zero. Adicione uma superfície digitada (tipos OpenAPI ou TypeScript) para estruturas de agente que executam o modo de código. Botoi faz isso hoje: o endpoint MCP atende Claude Desktop, e a especificação OpenAPI alimenta o SDK que as estruturas de agente importam como uma definição de tipo.
Quanto isso realmente economiza na conta antrópica?
Para um servidor de 49 ferramentas com taxa de entrada Opus da Anthropic, 29.400 tokens por turno custam cerca de US$ 0,44 por conversa de 10 turnos apenas em tokens de descrição de ferramenta. O Modo de Código reduz isso para um carregamento único do tipo 1K de token, reduzindo o custo de descrição por conversa para uma fração de centavo. Com 10.000 conversas por mês, a diferença é de aproximadamente US$ 4.400.

Comece a construir com botoi

150+ endpoints de API para consultas, processamento de texto, geração de imagens e utilitários para desenvolvedores. Plano gratuito, sem cartão de crédito.