Pular para o conteúdo
Guide

Seu agente de IA queima 21.000 tokens para corrigir um erro de digitação: 6 padrões de custo

| 9 min read

Uma sessão documentada do Claude Code usou 21.000 tokens de entrada para corrigir um único caractere. Seis padrões que reduzem as notas simbólicas em 60 a 80%, com código e números reais.

Financial charts and pricing data on a screen representing AI token cost tracking
Photo by Austin Distel on Unsplash

Um desenvolvedor da Morph documentou uma sessão do Claude Code que consumiu mais de 21.000 tokens de entrada para corrigir um erro de digitação de um único caractere. Isso equivale a ler um pequeno romance para mudar um carta. A sessão queimou os tokens, reenviando o histórico completo da conversa a cada turno, tentar novamente uma chamada de ferramenta com falha e reler os mesmos três arquivos que o agente já havia carregado duas vezes.

Nada naquela sessão foi incomum. Agentes de codificação reenviam histórico a cada turno, chamadas de ferramentas multiplique no meio dos turnos, e a janela de cache de prompt de 5 minutos é fácil de perder. Uma equipe executar Claude Code ou Cursor na mesma carga de trabalho pode gerar uma fatura simbólica que varia em 10x dependendo se esses seis padrões estão em vigor.

Aqui estão eles, cada um com a alteração do código que desbloqueia o salvamento e um número realista para o que isso corta.

Padrão 1: limitar iterações e impor um orçamento simbólico

A maneira mais rápida de queimar tokens é um loop de agente sem condição de saída. O agente atinge 400 erro, tenta novamente com a mesma entrada incorreta, tenta novamente com uma entrada incorreta ligeiramente diferente, tenta novamente, e assim por diante. Na iteração 40, você gastou 80.000 tokens sem produzir nada.

A versão ilimitada que acompanha todo tutorial:

A versão que não vai te acordar às 2 da manhã:

Duas tampas; um nas iterações, um no total de tokens. O limite de iteração captura tempestades de repetição. O o orçamento simbólico captura tarefas de longa duração que ainda estão convergindo, mas que ultrapassaram o ponto do dólar sentido. Se o agente não conseguir resolver o problema em 20 chamadas de ferramenta, a solução é um prompt melhor ou um ferramenta melhor, não mais iterações.

Registro stats.iterations ao lado stats.inputTokens em suas métricas gasoduto. Tarefas concluídas em 3 a 5 iterações são íntegras. Tarefas fixadas em 18 a 20 as iterações são tempestades de novas tentativas que precisam de uma reescrita imediata, não de um aumento de limite.

Padrão 2: marcar contexto estático longo como armazenável em cache

O cache imediato do Anthropic contabiliza o cache atingindo 10% da taxa de entrada e as gravações do cache a 125%. Para um guia de estilo de 10.000 tokens que é reutilizado em 100 chamadas no TTL de 5 minutos, a execução em cache custa cerca de 12% da execução sem cache.

Adicionando cache_control para um bloco de conteúdo é uma linha. Perder é o mais comum erro de custo no código do agente de produção:

O cache dura 5 minutos. Se o seu agente fizer uma ligação a cada 20 minutos, você paga o cache escreva o prêmio sem amortizá-lo e o armazenamento em cache custará dinheiro. Se o seu agente fizer explosões de De 10 a 50 ligações em menos de 5 minutos, a matemática vira a seu favor.

Um número concreto: uma sessão de revisão de 40 ligações com um guia de estilo de 8K, sem cache, custa cerca de 40 * 8.000 = 320.000 tokens de entrada apenas para o guia de estilo. Com cache: 10.000 (escrever a 125%) + 39 * 800 (lê-se em 10%) = 41.200 tokens faturáveis. Isso representa uma redução de 87% no bloco reutilizável.

Padrão 3: resumir o resultado de sessões longas

No turno 30 de uma sessão, o agente relê os turnos 1 a 29 em cada chamada. As primeiras voltas contêm contexto de configuração que há muito deixou de ser acionável. Comprima-os.

Resumindo com o Haiku, não é o mesmo modelo caro que conduz o circuito principal. O resumo pode perder detalhe; manter o suficiente para preservar caminhos de arquivos, nomes de funções e decisões que o agente já tomou feito. As últimas 6 voltas permanecem textuais para que o modelo ainda tenha resultados recentes de chamadas de ferramenta e funcione contexto.

Para uma sessão que estava prestes a atingir 120 mil tokens de entrada por turno, compactar os turnos 1 a 24 em um resumo de 400 tokens reduz a entrada por turno para aproximadamente 8K. Composto de poupança: nos próximos 10 turnos, isso representa um milhão de tokens que você não enviou.

Padrão 4: RAG em leituras de arquivo completo para material de referência

Enviar três arquivos inteiros a cada turno porque o agente pode precisar deles é a forma mais visível de resíduos. Uma pesquisa de armazenamento de vetores retornando as 5 referências de cortes de pedaços de 180 tokens mais relevantes contexto em 60 a 80%, mantendo a precisão nas questões específicas.

A regra geral: arquivos com tokens de 3K entram diretamente; arquivos com mais de 10 mil tokens são fragmentados e recuperado; arquivos intermediários dependem se o agente irá verificar tudo ou procurar um função específica. Para especificações de API, sites de documentação e esquemas de configuração, o RAG é estritamente melhor. Para o arquivo que o agente está editando ativamente, mantenha-o alinhado.

Padrão 5: descarregar trabalho determinístico para chamadas de ferramenta digitadas

O token mais caro é o token de saída gasto no raciocínio sobre um problema que o modelo deveria nunca foram solicitados a resolver. Tarefas determinísticas e estruturadas pertencem a uma ferramenta:

  • Sintaxe de e-mail mais MX mais cheque descartável
  • Análise de telefone para E.164 com detecção de país
  • Expiração do certificado SSL e validação da cadeia
  • Validação de esquema JSON, conversão de JSON para TypeScript
  • Hashing, geração de UUID, codificação base64, conversão de carimbo de data/hora
  • Verificações SPF, DMARC, DKIM; Pesquisas de registros DNS

A versão anterior custa cerca de 2.400 tokens por chamada e às vezes alucina registros MX. O depois a versão custa cerca de 230 tokens, chama um endpoint digitado e retorna uma resposta validada pelo esquema. O o agente obtém as mesmas informações por 10% do custo e zero erros de raciocínio.

É aqui que uma API externa se encaixa perfeitamente na pilha do agente. Chamadas de ferramenta que terminam em um única solicitação HTTP para um endpoint digitado remove o custo do token de saída e uma classe de alucinações. Qualquer endpoint Botoi pode ser agrupado como uma ferramenta Claude ou OpenAI em poucas linhas, ou chamado diretamente através do servidor Botoi MCP que expõe 49 deles como ferramentas MCP.

Padrão 6: rota por tipo de tarefa até o modelo aceitável mais barato

Opus custa 5x Sonnet e 15x Haiku por token de entrada. A maioria das tarefas em um loop de agente não precisa do Opus. Classificação, extração, roteamento curto de chamadas de ferramenta e compactação de resumo funcionam bem em Haiku. Mantenha o Opus para decisões arquitetônicas e depuração difícil.

Um agente típico de carga de trabalho mista que executava todas as etapas do Opus perdeu 62% de seu faturamento mensal fatura roteando apenas as tarefas de "planejamento" para o Opus e enviando classificação/extração para o Haiku. A precisão a regressão nessas tarefas foi zero porque, para começar, elas eram determinísticas.

O padrão Claude Advisor Tool vai além: Sonnet aciona o loop principal e chama o Opus meio da geração para uma segunda opinião sobre uma decisão específica. Uma chamada, dois modelos, quase Opus qualidade ao custo do Soneto.

Instrumente antes de otimizar

Você não pode cortar o que não pode ver. Registre estatísticas de token por execução assim que você enviar um agente para produção:

Cano runs.jsonl em tudo o que você já usa para métricas. A primeira semana de dados mostrará algumas execuções consumindo 3x a mediana. Esses são os seus loops de nova tentativa. Na próxima semana mostrará uma segunda camada de execuções caras que são falhas de cache porque a janela de cache expirou. Corrija-os em ordem de custo, não em ordem de frequência.

Juntando tudo: economias esperadas por padrão

Padrão Economia típica Esforço para enviar
Iteração + limite de token 40-90% em corridas patológicas Baixo (uma hora)
Cache de prompt em contexto reutilizável 60-90% no bloco em cache Baixo (uma linha por bloco)
Resumo da cauda 30-70% em sessões longas Médio (lógica de compressão)
RAG para material de referência 60-80% no conteúdo recuperado Médio (configuração de armazenamento de vetores)
Descarregamento de ferramenta para trabalho determinístico 70-95% em tarefas descarregadas Baixo (definição de ferramenta + chamada HTTP)
Roteamento de modelo por tipo de tarefa 50-80% misturado Baixo (função roteador)

Empilhe todos os seis. Uma equipe passando de "tudo no Opus, sem cache, arquivos completos, limite de 40 iterações" para "Roteamento Haiku-Sonnet, prompts do sistema em cache, RAG, ferramentas digitadas, limite de 20 iterações" corta regularmente gasto mensal em 70 a 85% com taxas de conclusão de tarefas idênticas ou melhores.

Principais conclusões

  • Limite iterações e tokens, não relógio de parede. Um limite de 20 iterações/150 mil tokens impede a repetição de tempestades antes que elas lhe custem dinheiro.
  • Marcar o contexto reutilizável como armazenável em cache. Uma cache_control curvas de linha uma sessão de 40 chamadas de 320 mil tokens faturáveis para 41 mil.
  • Resuma a cauda com o Haiku, mantenha a cabeça literalmente. Velhas voltas deixam de ser acionável mais rápido do que a maioria dos agentes percebe.
  • Recupere, não envie, material de referência. RAG corta 60-80% dos tokens de entrada para documentos, especificações e esquemas que o agente verifica em vez de editar.
  • Chamada de ferramenta o trabalho determinístico. Validação de e-mail, pesquisas de DNS, hashing, Conversão JSON; nada disso merece fichas de raciocínio.
  • Rota por tipo de tarefa. Haiku para classificar/extrair, Soneto para razão, Opus para plano. A conta combinada cai de 50 a 80% com perda zero de precisão em tarefas estruturadas.

Botoi oferece mais de 150 endpoints digitados e um servidor MCP de 49 ferramentas pronto para ser conectado a qualquer loop de agente. Substituir tokens de raciocínio por uma chamada HTTP custa aproximadamente 230 tokens por tarefa determinística em vez de mais de 2.000. Experimente o documentos de API interativos ou conecte Claude Code, Cursor ou VS Code ao Servidor MCP em um bloco de configuração e, em seguida, observe a linha do token no painel de custos se estabilizar.

FAQ

Por que um agente de codificação de IA usa tantos tokens para uma pequena mudança?
Os agentes de codificação reenviam o histórico completo da conversa a cada turno. Uma sessão de 30 turnos que começou com três leituras de arquivos grandes envia essas leituras a cada turno, multiplicadas por quantas chamadas de ferramenta o agente fizer entre os turnos. Uma correção de erro de digitação que parece trivial para um ser humano pode se transformar em 20 a 30 viagens de ida e volta, cada uma carregando de 1.000 a 1.500 tokens de contexto que o modelo já viu. A aritmética é composta rapidamente.
Quanto o cache imediato economiza em uma chamada antrópica?
O cache imediato da Anthropic cobra 10% da taxa de token de entrada para acessos ao cache e 125% para gravações no cache. Para um prompt do sistema de 10.000 tokens que é reutilizado em 100 chamadas dentro do TTL de 5 minutos, a execução em cache custa cerca de 12% da execução sem cache; uma gravação a 125% mais 99 leituras a 10%. Quanto maior for o seu contexto reutilizável, maior será a economia.
Qual limite de iteração devo definir em um loop de agente?
Comece com 15 a 25 iterações para uma única tarefa lógica. Se o seu agente não conseguir chegar a uma resposta correta em 15 chamadas de ferramenta, provavelmente não conseguirá em 50; é mais provável que seja pego em um loop de nova tentativa ou em argumentos de ferramenta alucinantes. Adicione uma verificação de orçamento que elimine o loop quando a sessão ultrapassar um limite de token, não um limite de relógio. O gasto de token é mapeado para o custo em dólares; relógio de parede não.
Quando faz sentido chamar uma API HTTP externa de um agente em vez de pedir ao modelo para calcular a resposta?
Sempre que a tarefa for determinística e estruturada: validação de e-mail, análise de telefone, verificações de SSL, decodificação base64, geração de UUID, cálculo de hash, validação de esquema JSON. O modelo não deve gastar 500 tokens de saída raciocinando se support@acme.com tem um registro MX válido. Uma única chamada de ferramenta para um endpoint digitado retorna a resposta em 30 tokens e remove uma classe de alucinações.
O RAG é sempre melhor do que colocar arquivos inteiros no contexto?
Para material de referência principalmente para leitura (documentos, esquemas de configuração, especificações de API), sim; as equipes que migram para uma recuperação RAG de token de 5 mil normalmente reduzem os tokens de entrada em 60 a 80% em comparação ao envio de arquivos completos. Para arquivos pequenos com tokens de 3K que se ajustam inteiramente ao contexto, o RAG adiciona complexidade sem economia. A regra: se o conteúdo relevante tiver menos de 3K tokens, incorpore-o; se tiver mais de 10 mil tokens e o agente precisar apenas de uma fatia, recupere-a.

Comece a construir com botoi

150+ endpoints de API para consultas, processamento de texto, geração de imagens e utilitários para desenvolvedores. Plano gratuito, sem cartão de crédito.