Su agente de IA quema 21.000 tokens para corregir un error tipográfico: 6 patrones de costos
Una sesión documentada de Claude Code utilizó 21.000 tokens de entrada para corregir un solo carácter. Seis patrones que reducen los billetes simbólicos entre un 60 y un 80%, con código y números reales.
Un desarrollador de Morph documentó una sesión de Claude Code que consumió más de 21.000 tokens de entrada para corregir un error tipográfico de un solo carácter. Eso es el equivalente a leer una novela corta para cambiar una. carta. La sesión quemó los tokens y reenvió el historial de conversación completo en cada turno, reintentar una llamada a una herramienta fallida y volver a leer los mismos tres archivos que el agente ya había cargado dos veces.
Nada en esa sesión fue inusual. Los agentes de codificación reenvían el historial en cada turno, llamadas de herramientas multiplíquese en medio de los turnos, y es fácil pasar por alto la ventana de caché de aviso de 5 minutos. un equipo ejecutar Claude Code o Cursor en la misma carga de trabajo puede generar una factura simbólica que varía 10 veces dependiendo de si estos seis patrones están vigentes.
Aquí están, cada uno con el cambio de código que desbloquea el ahorro y un número realista de lo que se corta.
Patrón 1: limitar las iteraciones y aplicar un presupuesto simbólico
La forma más rápida de quemar tokens es un bucle de agente sin condición de salida. El agente alcanza un 400 error, reintentos con la misma entrada incorrecta, reintentos con entradas incorrectas ligeramente diferentes, reintentos de nuevo, y así sucesivamente. En la iteración 40, ha gastado 80.000 tokens sin producir nada.
La versión ilimitada que viene con cada tutorial:
La versión que no te despertará a las 2 a.m.:
Dos gorras; uno sobre iteraciones, otro sobre tokens totales. El límite de iteración detecta tormentas de reintentos. el El presupuesto simbólico captura tareas de larga duración que aún están convergiendo pero que han superado el punto del dólar. sentido. Si el agente no puede resolver el problema en 20 llamadas a herramientas, la solución es un mejor aviso o una Mejor herramienta, no más iteraciones.
Registro stats.iterations junto a stats.inputTokens en tus métricas
tubería. Las tareas que se completan en 3 a 5 iteraciones son saludables. Tareas fijadas del 18 al 20
las iteraciones son tormentas de reintentos que necesitan una reescritura inmediata, no un aumento del límite.
Patrón 2: marcar el contexto estático largo como almacenable en caché
La caché rápida de Anthropic factura las visitas de caché al 10% de la tasa de entrada y las escrituras de caché al 125%. Para una guía de estilo de 10.000 tokens que se reutiliza en 100 llamadas dentro del TTL de 5 minutos, la ejecución en caché cuesta alrededor del 12% de la ejecución sin caché.
Añadiendo cache_control a un bloque de contenido es una línea. Faltarlo es lo más común.
error de costo en el código del agente de producción:
El caché dura 5 minutos. Si tu agente hace una llamada cada 20 minutos, pagas el caché escriba la prima sin amortizarla y el almacenamiento en caché le costará dinero. Si su agente hace ráfagas de De 10 a 50 llamadas en menos de 5 minutos, las matemáticas cambian a tu favor.
Una cifra concreta: una sesión de revisión de 40 llamadas con una guía de estilo de 8K, sin caché, cuesta aproximadamente 40* 8.000 = 320.000 tokens de entrada solo para la guía de estilo. Con almacenamiento en caché: 10.000 (escribir al 125%) + 39 * 800 (lectura al 10%) = 41,200 tokens facturables. Esa es una reducción del 87% en el bloque reutilizable.
Patrón 3: resumir la cola de sesiones largas
En el turno 30 de una sesión, el agente vuelve a leer los turnos del 1 al 29 en cada llamada. Los primeros giros contienen un contexto de configuración que hace tiempo que dejó de ser procesable. Comprimirlos.
Para resumir, Haiku no es el mismo modelo caro que conduce el circuito principal. El resumen puede perder detalle; mantenga lo suficiente para preservar rutas de archivos, nombres de funciones y decisiones que el agente ya haya tomado. hecho. Los últimos 6 turnos permanecen textuales, por lo que el modelo todavía tiene resultados de llamadas de herramientas recientes y funciona. contexto.
Para una sesión que estaba a punto de alcanzar 120 000 tokens de entrada por turno, comprimir los turnos del 1 al 24 en un resumen de 400 tokens se reduce la entrada por turno a aproximadamente 8K. Compuesto de ahorro: en los próximos 10 turnos, eso es un millón de tokens que no enviaste.
Patrón 4: RAG sobre lecturas de archivos completos para material de referencia
Enviar tres archivos completos en cada turno porque el agente podría necesitarlos es la forma más visible de residuos. Una búsqueda en la tienda de vectores que devuelve las 5 referencias de cortes de fragmentos de 180 tokens más relevantes contexto entre un 60 y un 80 % manteniendo la precisión en las preguntas específicas.
La regla general: los archivos con tokens de 3K van directamente; Los archivos de más de 10.000 tokens se fragmentan y recuperado; Los archivos intermedios dependen de si el agente escaneará todo o buscará un función específica. Para especificaciones de API, sitios de documentación y esquemas de configuración, RAG es estrictamente mejor. Para el archivo que el agente está editando activamente, manténgalo en línea.
Patrón 5: descargar trabajo determinista a llamadas de herramientas escritas
El token más caro es el token de salida que se gasta razonando a través de un problema que el modelo debería Nunca me han pedido que lo resuelva. Las tareas deterministas y estructuradas pertenecen a una herramienta:
- Sintaxis de correo electrónico más MX más cheque desechable
- Análisis del teléfono según E.164 con detección de país
- Caducidad del certificado SSL y validación de la cadena
- Validación de esquema JSON, conversión de JSON a TypeScript
- Hashing, generación de UUID, codificación base64, conversión de marca de tiempo
- Comprobaciones SPF, DMARC, DKIM; Búsquedas de registros DNS
La versión anterior cuesta ~2400 tokens por llamada y, a veces, alucina con registros MX. el después La versión cuesta ~230 tokens, llama a un punto final escrito y devuelve una respuesta validada por el esquema. el El agente obtiene la misma información por el 10% del costo y sin errores de razonamiento.
Aquí es donde una API externa encaja perfectamente en la pila de agentes. Llamadas a herramientas que terminan en un Una sola solicitud HTTP a un punto final escrito elimina tanto el costo del token de salida como una clase de alucinaciones. Cualquier punto final de Botoi se puede empaquetar como una herramienta Claude u OpenAI en unas pocas líneas, o llamado directamente a través del servidor Botoi MCP que expone 49 de ellos como herramientas MCP.
Patrón 6: ruta por tipo de tarea hasta el modelo aceptable más barato
Opus cuesta 5x Sonnet y 15x Haiku por token de entrada. La mayoría de las tareas en un bucle de agente no necesitan Opus. La clasificación, la extracción, el enrutamiento de llamadas breves a herramientas y la compresión de resumen funcionan bien en Haikú. Mantenga Opus para decisiones arquitectónicas y depuraciones difíciles.
Un agente típico de carga de trabajo mixta que ejecutaba cada paso en Opus perdió el 62% de su salario mensual. facture enrutando solo las tareas de "planificación" a Opus y presionando clasificar/extraer a Haiku. la exactitud la regresión en esas tareas fue cero porque, para empezar, eran deterministas.
El patrón Claude Advisor Tool va más allá: Sonnet controla el bucle principal y llama a Opus generación media para obtener una segunda opinión sobre una decisión específica. Una llamada, dos modelos, casi Opus Calidad al coste de Sonnet.
Instrumento antes de optimizar
No puedes cortar lo que no puedes ver. Registre estadísticas de tokens por ejecución tan pronto como envíe un agente a producción:
Tubo runs.jsonl en lo que ya usas para las métricas. La primera semana de datos
mostrará un puñado de carreras que consumen 3 veces la mediana. Esos son tus bucles de reintento. La próxima semana
mostrará un segundo nivel de ejecuciones costosas que son errores de caché porque la ventana de caché expiró.
Arréglelos en orden de costo, no en orden de frecuencia.
En resumen: ahorros esperados por patrón
| Patrona | Ahorro típico | Esfuerzo para enviar |
|---|---|---|
| Iteración + límite de token | 40-90% en carreras patológicas | Baja (una hora) |
| Solicitar caché en contexto reutilizable | 60-90% en el bloque almacenado en caché | Bajo (una línea por bloque) |
| Resumen de cola | 30-70% en sesiones largas | Medio (lógica de compresión) |
| RAG para material de referencia | 60-80% en contenido recuperado | Medio (configuración de tienda de vectores) |
| Descarga de herramientas para trabajos deterministas | 70-95 % en tareas descargadas | Bajo (definición de herramienta + llamada HTTP) |
| Modelo de enrutamiento por tipo de tarea | 50-80% mezclado | Bajo (función de enrutador) |
Apila los seis. Un equipo que pasa de "todo en Opus, sin caché, archivos completos, límite de 40 iteraciones" a "Enrutamiento Haiku-Sonnet, indicaciones del sistema en caché, RAG, herramientas escritas, límite de 20 iteraciones" se corta periódicamente Gasto mensual entre un 70% y un 85% con tasas de finalización de tareas idénticas o mejores.
Conclusiones clave
- Limite las iteraciones y los tokens, no el reloj de pared. Un límite de 20 iteraciones/150 000 tokens detiene las tormentas de reintento antes de que le cuesten dinero.
-
Marcar el contexto reutilizable como almacenable en caché. Una
cache_controlgiros de línea una sesión de 40 llamadas de 320.000 tokens facturables a 41.000. - Resume la cola con Haiku, mantén la cabeza palabra por palabra. Los viejos giros dejan de ser procesable más rápido de lo que la mayoría de los agentes notan.
- Recuperar, no enviar, material de referencia. RAG reduce entre un 60% y un 80% los tokens de entrada para documentos, especificaciones y esquemas que el agente escanea en lugar de editar.
- Herramienta-llame al trabajo determinista. Validación de correo electrónico, búsquedas de DNS, hash, conversión JSON; Nada de esto merece fichas de razonamiento.
- Ruta por tipo de tarea. Haiku para clasificar/extraer, Soneto para la razón, Opus para plano. La factura combinada se reduce entre un 50 y un 80 % sin pérdida de precisión en tareas estructuradas.
Botoi le ofrece más de 150 puntos finales escritos y un servidor MCP de 49 herramientas listo para conectarse a cualquier bucle de agente. Reemplazar tokens de razonamiento con una llamada HTTP cuesta aproximadamente 230 tokens por tarea determinista en lugar de más de 2000. Prueba el documentos API interactivos o conecte Claude Code, Cursor o VS Code al servidor MCP en uno bloque de configuración, luego observe cómo se aplana la línea de su token en el panel de costos.
FAQ
- ¿Por qué un agente codificador de IA utiliza tantos tokens por un pequeño cambio?
- Los agentes codificadores reenvían el historial completo de conversaciones en cada turno. Una sesión de 30 turnos que comenzó con tres lecturas de archivos grandes envía esas lecturas en cada turno, multiplicadas por la cantidad de llamadas a herramientas que realiza el agente entre turnos. Una corrección de error tipográfico que parece trivial para un humano puede convertirse en entre 20 y 30 viajes de ida y vuelta, cada uno con entre 1.000 y 1.500 tokens de contexto que el modelo ya vio. La aritmética se compone rápidamente.
- ¿Cuánto ahorra el almacenamiento en caché en una llamada Anthropic?
- El caché de avisos de Anthropic cobra el 10% de la tasa del token de entrada por aciertos de caché y el 125% por escrituras de caché. Para un aviso del sistema de 10 000 tokens que se reutiliza en 100 llamadas dentro del TTL de 5 minutos, la ejecución en caché cuesta aproximadamente el 12 % de la ejecución sin caché; una escritura al 125% más 99 lecturas al 10%. Cuanto mayor sea su contexto reutilizable, mayores serán los ahorros.
- ¿Qué límite de iteración debo establecer en un bucle de agente?
- Comience con 15 a 25 iteraciones para una única tarea lógica. Si su agente no puede llegar a una respuesta correcta en 15 llamadas de herramientas, probablemente no la alcanzará en 50; Es más probable que esté atrapado en un bucle de reintento o en argumentos de herramientas alucinantes. Agregue una verificación de presupuesto que finalice el ciclo cuando la sesión cruce un umbral simbólico, no un límite de reloj de pared. El gasto de tokens se asigna al costo en dólares; el reloj de pared no.
- ¿Cuándo tiene sentido llamar a una API HTTP externa desde un agente en lugar de pedirle al modelo que calcule la respuesta?
- En cualquier momento, la tarea es determinista y estructurada: validación de correo electrónico, análisis de teléfonos, comprobaciones de SSL, decodificación base64, generación de UUID, cálculo de hash, validación de esquema JSON. El modelo no debe gastar 500 tokens de salida razonando si support@acme.com tiene un registro MX válido. Una sola llamada de herramienta a un punto final escrito devuelve la respuesta en 30 tokens y elimina una clase de alucinaciones.
- ¿RAG siempre es mejor que poner archivos completos en contexto?
- Para material de referencia de lectura mayoritaria (documentos, esquemas de configuración, especificaciones de API), sí; Los equipos que pasan a una recuperación RAG de 5K tokens generalmente reducen los tokens de entrada entre un 60 y un 80% en comparación con el envío de archivos completos. Para archivos pequeños de menos de 3K tokens que encajan completamente en contexto, RAG agrega complejidad sin ahorros. La regla: si el contenido relevante tiene menos de 3K tokens, inclúyalo; si tiene más de 10.000 tokens y el agente solo necesita una porción, recupérela.
Empieza a construir con botoi
150+ endpoints de API para consultas, procesamiento de texto, generacion de imagenes y utilidades para desarrolladores. Plan gratuito, sin tarjeta de credito.