Ваш ИИ-агент сжигает 21 000 токенов, чтобы исправить опечатку: 6 моделей затрат
В одном задокументированном сеансе Claude Code использовалась 21 000 входных токенов для фиксации одного символа. Шесть шаблонов, которые сокращают счета за токены на 60–80 %, с кодом и реальными числами.
Разработчик Morph задокументировал сеанс Claude Code, который использовал более 21 000 входных токенов для Исправьте односимвольную опечатку. Это эквивалентно чтению короткого романа, чтобы изменить себя. письмо. Сеанс сжег токены, каждый раз пересылая полную историю разговоров. повтор неудачного вызова инструмента и повторное чтение тех же трех файлов, которые уже загрузил агент. дважды.
В этой сессии не было ничего необычного. Агенты кодирования повторно отправляют историю на каждом шагу, вызовы инструментов умножайтесь в середине ходов, и 5-минутное окно кэша подсказок легко пропустить. Команда запуск Claude Code или Cursor на одной и той же рабочей нагрузке может привести к увеличению счета за токены, который будет отличаться в 10 раз. в зависимости от того, присутствуют ли эти шесть шаблонов.
Вот они, у каждого есть изменение кода, открывающее сохранение, и реалистичное число того, что оно режет.
Схема 1: ограничить количество итераций и обеспечить соблюдение бюджета токенов
Самый быстрый способ сжигания токенов — это цикл агента без условий выхода. Агент набирает 400 ошибка, повторная попытка с тем же неверным вводом, повторная попытка с немного другим неверным вводом, повторная попытка, и так далее. К 40-й итерации вы потратили 80 000 токенов, ничего не производя.
Неограниченная версия, которая поставляется с каждым руководством:
Версия, которая не разбудит вас в 2 часа ночи:
Две шапки; один на итерациях, один на общем количестве токенов. Ограничение итераций отлавливает штормы повторных попыток. Бюджет токена охватывает долгосрочные задачи, которые все еще сходятся, но уже прошли точку доллара. смысл. Если агент не может решить проблему за 20 вызовов инструмента, лучшим решением будет подсказка или лучший инструмент, а не больше итераций.
Бревно stats.iterations рядом stats.inputTokens в твоих показателях
трубопровод. Задачи, которые выполняются за 3–5 итераций, считаются работоспособными. Задачи закреплены с 18 по 20.
итерации — это повторные попытки, требующие немедленной перезаписи, а не увеличения лимита.
Шаблон 2: пометить длинный статический контекст как кэшируемый
Оперативный кеш Anthropic выставляет счета за кэширование со скоростью 10 % от скорости ввода и записью в кеш со скоростью 125 %. Для руководство по стилю на 10 000 токенов, которое повторно используется при 100 вызовах в течение 5-минутного TTL, кэшированного запуска стоит около 12% от некэшированного запуска.
Добавление cache_control для блока контента — одна строка. Его отсутствие является наиболее распространенным
ошибка стоимости в коде производственного агента:
Кэш живет 5 минут. Если ваш агент совершает один звонок каждые 20 минут, вы платите кэш записывайте премию, не амортизируя ее, а кеширование будет стоить вам денег. Если ваш агент делает всплески От 10 до 50 звонков менее чем за 5 минут — расчет в вашу пользу.
Конкретная цифра: обзорная сессия из 40 звонков с руководством по стилю 8K, без кэша, стоит примерно 40*. 8 000 = 320 000 токенов ввода только для руководства по стилю. С кэшированием: 10 000 (запись при 125%) + 39 * 800 (читается с точностью 10%) = 41 200 оплачиваемых токенов. Это на 87% меньше, чем у многоразового блока.
Схема 3: подведите итоги длинных сессий
На 30-м ходу сеанса агент перечитывает ходы с 1 по 29 при каждом вызове. Первые повороты содержат контекст настройки, который уже давно перестал быть применимым. Сожмите их.
Подведите итоги с помощью Haiku, а не той дорогой модели, которая управляет основным циклом. Резюме может потерять деталь; сохраняйте достаточно, чтобы сохранить пути к файлам, имена функций и решения, которые агент уже принял. сделал. Последние 6 оборотов остаются дословными, поэтому модель все еще имеет результаты недавних вызовов инструмента и работает. контекст.
Для сеанса, который собирался получить 120 000 входных токенов за ход, сжатие ходов с 1 по 24. в сводку из 400 токенов сокращается ввод за ход примерно до 8 КБ. Сберегательный комплекс: на ближайшие 10 получается, это миллион токенов, которые вы не отправляли.
Схема 4: RAG при чтении всего файла для получения справочного материала
Отправка трех целых файлов каждый ход, потому что они могут понадобиться агенту, является наиболее заметной формой. отходов. Поиск в векторном хранилище, возвращающий 5 наиболее релевантных ссылок на фрагменты по 180 токенов. контекст на 60–80 %, сохраняя при этом точность ответов на целевые вопросы.
Эмпирическое правило: файлы с токенами 3K поступают напрямую; файлы размером более 10 000 токенов разбиваются на части и извлечено; файлы между ними зависят от того, будет ли агент сканировать все целиком или искать специфическая функция. Для спецификаций API, сайтов документации и схем конфигурации RAG строго лучше. Для файла, который активно редактирует агент, оставьте его встроенным.
Схема 5: перенесите детерминированную работу на типизированные вызовы инструментов
Самый дорогой токен — это выходной токен, потраченный на решение проблемы, которую должна решить модель. никогда не просили решить. Детерминированные, структурированные задачи относятся к инструменту:
- Синтаксис электронной почты плюс MX плюс одноразовый чек
- Парсинг телефона в E.164 с определением страны
- Срок действия SSL-сертификата и проверка цепочки
- Проверка схемы JSON, преобразование JSON в TypeScript
- Хеширование, генерация UUID, кодировка base64, преобразование метки времени
- проверки SPF, DMARC, DKIM; Поиск DNS-записей
Предыдущая версия стоит ~2400 токенов за звонок и иногда вызывает галлюцинации записей MX. После версия стоит ~230 токенов, вызывает типизированную конечную точку и возвращает подтвержденный схемой ответ. агент получает ту же информацию за 10% стоимости и без ошибок в рассуждениях.
Именно здесь внешний API идеально вписывается в стек агентов. Вызовы инструментов, которые завершаются один HTTP-запрос к типизированной конечной точке удаляет как стоимость выходного токена, так и класс галлюцинации. Любую конечную точку Botoi можно обернуть в несколько строк как инструмент Claude или OpenAI. вызываются напрямую через сервер Botoi MCP, который предоставляет 49 из них как инструменты MCP.
Схема 6: маршрут по типу задачи к самой дешевой приемлемой модели
Opus стоит 5x Sonnet и 15x Haiku за входной жетон. Для большинства задач в цикле агента Opus не требуется. Классификация, извлечение, краткая маршрутизация вызовов инструментов и сжатие сводных данных прекрасно работают на Хайку. Оставьте Opus для архитектурных решений и сложной отладки.
Типичный агент смешанной нагрузки, который выполнял каждый шаг на Opus, потерял 62 % своих ежемесячных затрат. счет, перенаправляя в Opus только «плановые» задачи и отправляя классификацию/извлечение в Haiku. Точность регрессия по этим задачам была нулевой, поскольку они изначально были детерминированными.
Шаблон Claude Advisor Tool идет дальше: Sonnet управляет основным циклом и вызывает Opus. среднее поколение для получения второго мнения по конкретному решению. Один звонок, две модели, почти Опус качество по цене Sonnet.
Инструмент перед оптимизацией
Нельзя разрезать то, чего не видишь. Записывайте статистику токенов по каждому запуску, как только вы отправляете агента в производство:
Трубка runs.jsonl во все, что вы уже используете для показателей. Данные первой недели
покажет несколько прогонов, потребляющих в 3 раза больше медианы. Это ваши циклы повторов. На следующей неделе
отобразится второй уровень дорогостоящих запусков, которые являются промахами в кэше из-за истечения срока действия окна кэша.
Исправьте их в порядке стоимости, а не частоты.
Подведем итоги: ожидаемая экономия в зависимости от модели
| Шаблон | Типичная экономия | Усилия по отправке |
|---|---|---|
| Итерация + ограничение токена | 40-90% на патологические прогоны | Низкий (один час) |
| Кеш подсказки в многоразовом контексте | 60-90% в кэшированном блоке | Низкий (одна строка на блок) |
| Подведение итогов | 30-70% на длительных сессиях | Средний (логика сжатия) |
| ТРЯПКА для справочных материалов | 60-80% на полученный контент | Средний (настройка векторного магазина) |
| Разгрузка инструментов для детерминированной работы | 70-95% на разгруженной задаче | Низкий (определение инструмента + HTTP-вызов) |
| Маршрутизация модели по типу задачи | 50-80% смешанные | Низкий (функция маршрутизатора) |
Сложите все шесть. Команда переходит от «всего на Opus, без кэша, полные файлы, ограничение в 40 итераций» к «Маршрутизация Haiku-Sonnet, кэшированные системные подсказки, RAG, наборные инструменты, ограничение в 20 итераций» регулярно сокращается. ежемесячные расходы на 70–85 % при одинаковых или более высоких показателях выполнения задач.
Ключевые выводы
- Ограничивайте итерации и токены, а не настенные часы. Ограничение на 20 итераций/150 тыс. токенов останавливает повторные попытки штормов, прежде чем они будут стоить вам денег.
-
Отметьте повторно используемый контекст как кэшируемый. Один
cache_controlповороты линии сеанс из 40 вызовов из 320 000 оплачиваемых токенов в 41 000. - Обобщите хвост с помощью Хайку, оставьте голову дословно. Старые повороты перестают быть действовать быстрее, чем замечает большинство агентов.
- Получить, но не отправлять справочные материалы. RAG сокращает входные токены на 60–80 % для документов, спецификаций и схем, которые агент сканирует, а не редактирует.
- Инструмент-вызов детерминированной работы. Проверка электронной почты, поиск DNS, хеширование, преобразование JSON; ничто из этого не заслуживает аргументов.
- Маршрут по типу задачи. Хайку для классификации/извлечения, Сонет для разума, Опус для план. Смешанные расходы снижаются на 50–80 % при нулевой потере точности при выполнении структурированных задач.
Botoi предоставляет вам более 150 типизированных конечных точек и сервер MCP с 49 инструментами, готовый подключиться к любому циклу агента. Замена токенов рассуждения HTTP-вызовом стоит примерно 230 токенов на детерминированную задачу. вместо 2000+. Попробуйте интерактивная документация API или подключите Claude Code, Cursor или VS Code к MCP-сервер в одном config, а затем наблюдайте, как строка вашего токена на информационной панели стоимости выравнивается.
FAQ
- Почему агент кодирования ИИ использует так много токенов для небольшой сдачи?
- Агенты кодирования повторно отправляют полную историю разговоров на каждом этапе. Сеанс из 30 оборотов, начавшийся с трех чтений больших файлов, отправляет эти чтения каждый ход, умноженные на количество вызовов инструментов, которые агент делает между ходами. Исправление опечатки, которое человеку кажется тривиальным, может превратиться в 20–30 обращений туда и обратно, каждое из которых несет от 1000 до 1500 токенов контекста, который модель уже видела. Арифметические вычисления выполняются быстро.
- Насколько экономит кэширование подсказок при вызове Anthropic?
- Кэш запросов Anthropic взимает 10 % от скорости входных токенов за попадания в кеш и 125 % за записи в кеш. Для системного приглашения на 10 000 токенов, которое повторно используется при 100 вызовах в течение 5-минутного TTL, кэшированный запуск стоит около 12% от некэшированного запуска; одна запись при 125% плюс 99 операций чтения при 10%. Чем больше ваш многоразовый контекст, тем больше экономия.
- Какое ограничение итерации следует установить в цикле агента?
- Начните с 15–25 итераций для одной логической задачи. Если ваш агент не может дать правильный ответ за 15 вызовов инструмента, он, вероятно, не получит его и за 50; скорее всего, он застрял в цикле повтора или в галлюцинирующих аргументах инструмента. Добавьте проверку бюджета, которая прерывает цикл, когда сеанс пересекает порог токена, а не предел настенных часов. Расходы на токены соответствуют долларовой стоимости; настенные часы этого не делают.
- Когда имеет смысл вызывать внешний HTTP API от агента вместо того, чтобы просить модель вычислить ответ?
- В любое время задача является детерминированной и структурированной: проверка электронной почты, анализ телефона, проверки SSL, декодирование base64, генерация UUID, вычисление хеша, проверка схемы JSON. Модель не должна тратить 500 выходных токенов на выяснение того, имеет ли support@acme.com действительную запись MX. Один вызов инструмента к типизированной конечной точке возвращает ответ в 30 токенах и удаляет класс галлюцинаций.
- Всегда ли RAG лучше помещает целые файлы в контекст?
- Для справочных материалов, предназначенных в основном для чтения (документация, схемы конфигурации, спецификации API), да; команды, которые переходят на извлечение RAG из 5 000 токенов, обычно сокращают входные токены на 60–80% по сравнению с отправкой полных файлов. Для небольших файлов с токенами размером 3 КБ, которые полностью вписываются в контекст, RAG усложняет работу без экономии. Правило: если соответствующий контент находится под токенами 3K, встраивайте его; если оно превышает 10 000 токенов и агенту нужен только фрагмент, извлеките его.
Начните разработку с botoi
150+ API-эндпоинтов для поиска, обработки текста, генерации изображений и утилит для разработчиков. Бесплатный тариф, без банковской карты.