Перейти к содержимому
Guide

Cloudflare Code Mode MCP: перестаньте платить 1 миллион токенов за описание своих инструментов

| 7 min read

Cloudflare сократил количество определений инструментов MCP с 1,17 млн ​​токенов до 1 тыс., позволив агентам писать код на типизированной поверхности API. Вот как работает этот шаблон и когда его использовать.

Code on a monitor representing MCP tool schemas and token usage
Photo by Fotis Fotopoulos on Unsplash

Сервер MCP с 49 инструментами сжигает около 29 000 токенов ввода, прежде чем ваш пользователь введет один символ. Сервер с 2500 инструментами (приблизительно столько, сколько Cloudflare поставляет внутри себя) сжигает 1,17 миллиона. Это — это полное окно ввода, которое Клод Опус потратил на описание инструментов, а не на решение проблемы пользователя. Каждый ход снова оплачивает счет. Каждая повторная попытка оплачивается снова. В масштабе позиция для «Определения инструментов» опережают позицию «реальная работа».

В апреле 2026 года Cloudflare была отправлена. Кодовый режим MCP, шаблон, который разрушает это Количество токенов составит около 1,17 миллиона, а количество токенов составит около 1000, что составляет сокращение на 99,9%. Хитрость проста: остановись описание инструментов модели. Дайте модели типизированный API и песочницу, и пусть она напишет код, который вызывает инструменты. Вот почему классический шаблон приводит к утечке токенов, как это исправляет режим кода. и когда вам следует беспокоиться о переключении.

Проблема с токеном 1,17 млн.

Классический MCP отправляет определения инструментов как часть системного контекста при каждом запросе. Каждый инструмент содержит имя, описание, входную схему и часто выходную схему. Компактный пример для инструмента поиска погоды выглядит так:

Эта одна схема использует около 600 токенов, если учесть структурные издержки JSON, описания, необходимые модели для выбора инструмента, и значения перечислений. Умножить на 49 куратор инструменты на сервере MCP botoi, и вы получаете примерно 29 400 жетонов за ход. 10-поворотный разговор платит 10 раз, потому что модель не имеет памяти между ходами и Оркестратор каждый раз отправляет весь пакет. Масштабируйте количество инструментов до полного уровня Cloudflare. внутренняя поверхность API (около 2500 конечных точек), а стоимость одного оборота достигает 1,17 миллиона токенов, который выходит за пределы даже окна Opus с 1M-токеном.

Подсчитайте свой след за один звонок. Счетчик токенов Botoi принимает любую строку; накормить его схему инструмента, и вы получите точное количество токенов Anthropic:

Как кодовый режим MCP переворачивает шаблон

Люди не читают схемы API перед каждым вызовом. Вы читаете документацию один раз, открываете редактор и написать код, который импортирует функции. Среда выполнения обрабатывает отправку. Режим кода дает модели та же установка.

Агент работает внутри изоляции V8 (песочница Workers Cloudflare). Инструменты MCP отображаются как набранные функции на импортированном объекте. Модель видит объявление типа TypeScript, а не JSON. трансляция схемы. Когда пользователь спрашивает «какое качество воздуха там, где я живу», модель пишет короткая программа:

// The agent writes this. The runtime compiles and executes it.
// Only the two functions it calls ever hit the wire.
import { botoi } from "@botoi/mcp";

export async function run(input: { city: string }) {
  const weather = await botoi.weather.current({ city: input.city });
  const air = await botoi.airQuality.check({
    lat: weather.lat,
    lon: weather.lon,
  });

  return {
    city: input.city,
    temp: weather.temp_c,
    aqi: air.aqi,
    advice: air.aqi > 100 ? "stay inside" : "go for a walk",
  };
}

Среда выполнения компилирует фрагмент, запускает его внутри изолята, и только две его функции вообще-то звонит(botoi.weather.current и botoi.airQuality.check) коснитесь сети. Модель никогда не видела схемы остальных 47 инструментов, потому что она никогда не видела нужно. Файл типа сохраняется на диске один раз и сообщает об этом компилятору, а не контекстному окну.

Режим кода ближе к тому, как вы пишете сценарий для SDK, чем к тому, как вы управляете формой. Результатом модели является код, задачей среды выполнения является безопасное выполнение кода, а стоимость сети отображает реальные вызовы, а не гипотетические.

Математика на сервере Botoi с 49 инструментами

Сервер MCP Botoi предоставляет 49 тщательно подобранных инструментов для поиска, текста, разработки, изображений и безопасности. категории. В таблице ниже сравнивается классический MCP и кодовый режим для типичной рабочей нагрузки: 10 разговоров, 10 000 разговоров в месяц, входные цены Opus.

Метрика Классический МКП Кодовый режим MCP
Жетоны за ход (описания инструментов) 29 400 0 (тип файла, загружаемого один раз)
Тип холодного пуска – поверхностная нагрузка 0 ~1000 токенов
Стоимость разговора за 10 ходов в описаниях 294 000 токенов 1000 жетонов
Основной режим отказа Модель выбирает неправильный инструмент Сгенерированный код выдает во время выполнения
Возможность отладки Трассировка вызова инструмента Трассировка стека плюс трассировка вызовов инструментов
Оптимальный вариант использования <10 инструментов, настольные клиенты Более 50 инструментов, многоэтапные рабочие процессы
Добавлена ​​задержка Никто 10-50 мс компиляция + изолировать запуск

При ставках ввода Opus (примерно 15 долларов США за миллион токенов) классический шаблон стоит около 0,44 доллара США за штуку. 10-ходовой разговор только в жетонах описания инструментов. Режим кода снижает это до долей цент. За 10 000 разговоров в месяц вы сэкономите около 4400 долларов и вернете 2,9 миллиарда долларов. жетоны контекстного бюджета для важной работы.

Измерьте свой собственный сервер сегодня, прежде чем переходить к любому шаблону:

Когда кодовый режим того стоит, а когда нет

Кодовый режим не бесплатен. Песочница добавляет от 10 до 50 миллисекунд компиляции и изоляции запуска. за ход. Сгенерированный код может выдать ошибку, а это означает, что вам нужна логика повтора и запасной путь. Отладка переходит от «модель выбрала не тот инструмент» к «модель написала код, который ссылается на неопределенный символ». Ваш стек наблюдения должен захватывать как исходный код, так и и инструмент называет его триггерным.

Придерживайтесь классического MCP, когда:

  • Вы предоставляете менее 10 инструментов, а объем схемы составляет менее 6000 токенов.
  • Ваш целевой клиент — Claude Desktop, Cursor или VS Code (они поддерживают только классический MCP).
  • Цикл агента одноэтапный: одно сообщение пользователя, один вызов инструмента, один ответ.
  • Бюджеты задержек ограничены, и вы не можете потратить 10–50 мс на компиляцию.

Переключитесь в режим кода, если:

  • Вы предоставляете 50 или более инструментов, или объем вашей схемы превышает 15 000 токенов.
  • Рабочие процессы объединяют более 3 вызовов инструментов, поскольку режим кода позволяет избежать повторного описания инструментов на каждом переходе.
  • Вы владеете средой выполнения (Cloudflare Agents, Mastra, LangGraph) и можете компилировать выходные данные агента.
  • Самая крупная статья законопроекта Anthropic гласит: «токены системного ввода».

Путь миграции без перезаписи вашего сервера

Вам не обязательно выбирать один шаблон. Большинству команд следует использовать оба варианта и маршрутизировать клиентов по возможностям. Вот трехэтапный путь, позволяющий избежать перезаписи вашего сервера MCP:

Шаг 1: измерьте. Получите манифест инструмента MCP и запустите его через токен. счетчик. Если вы преодолеете 15 000 жетонов, кодовый режим окупится. Если у вас меньше 6000, пропустите остальная часть этого поста.

Шаг 2: выставьте типизированную поверхность рядом с MCP. У вас уже есть OpenAPI spec, если вы используете HTTP API. Сгенерируйте из него типы TypeScript (это делает SDK Botoi; см. packages/sdk-typescript) и разместить полученный результат .d.ts файл в стабильный URL. Среды выполнения режима кода извлекают этот файл один раз за сеанс и используют его в качестве импорта. цель. Ваша конечная точка MCP продолжает обслуживать классических клиентов без изменений.

Шаг 3: маршрутизация по клиенту. Claude Desktop, Cursor и VS Code продолжают пользоваться популярностью /mcp и получите классические схемы инструментов. Агентские платформы (агенты Cloudflare, Мастра, ЛангГраф) хит нового /code-mode маршрут, который возвращает определение типа и дескриптор времени выполнения. Тот же сервер, та же бизнес-логика, два протокола.

Botoi сегодня поставляет обе формы. Классическая конечная точка MCP в api.botoi.com/mcp предоставляет 49 тщательно подобранных инструментов с полными схемами JSON для настольных клиентов. Типизированный SDK по адресу api.botoi.com/docs предоставляет платформам агентов возможность импорта в одном файле. Уровень бесплатного пользования (5 запросов в минуту, без ключа) охватывает разведка; Уровень разработчика (1000 запросов в день с бесплатным ключом) охватывает циклы производственного агента. Если Самая большая статья антропного законопроекта — это описания инструментов. первая неделя.

FAQ

Почему при внедрении схем инструментов тратятся токены, если модель может вызывать только один инструмент?
Классический MCP на каждом этапе отправляет схему JSON каждого инструмента в системный контекст, поэтому модель оплачивает полную стоимость независимо от того, вызывает ли она один инструмент или ни одного. Модель не может знать, какие инструменты существуют, пока вы ей не сообщите, и вы не сообщите ей об этом с помощью схем. В режиме кода эта трансляция заменяется определением одного типа, к которому среда выполнения обращается только тогда, когда сгенерированный код фактически импортирует функцию.
Работает ли сегодня режим кода с Claude Desktop или Cursor?
Еще нет. Интеграция MCP Claude Desktop, Cursor и VS Code использует классический протокол MCP, поэтому они по-прежнему получают встроенные схемы инструментов. Режим кода Cloudflare предназначен для платформ агентов (Cloudflare Agents, Mastra, LangGraph), где вы управляете средой выполнения и можете скомпилировать выходные данные агента перед его запуском.
А как насчет безопасности, не рискованно ли позволять модели писать код?
Именно поэтому в режиме кода сгенерированный код выполняется внутри изолированной версии V8 без доступа к файловой системе, доступа к сети за пределами типизированной поверхности API и бюджета ЦП. Песочница имеет ту же форму, которую Cloudflare использует для Workers. Модель не может выйти из изоляции так же, как пользователь не может выйти из вкладки браузера.
Могу ли я использовать классический MCP и кодовый режим на одном сервере?
Да, и вам следует. Сохраните классическую конечную точку MCP для настольных клиентов и редакторов, которым требуется обнаружение инструментов без настройки. Добавьте типизированную поверхность (типы OpenAPI или TypeScript) для платформ агентов, работающих в режиме кода. Botoi делает это сегодня: конечная точка MCP обслуживает Claude Desktop, а спецификация OpenAPI обеспечивает SDK, который агентские платформы импортируют в качестве определения типа.
Сколько это на самом деле экономит на антропном счете?
Для сервера с 49 инструментами при скорости ввода Anthropic Opus 29 400 токенов за ход стоят около 0,44 доллара за 10-ходовой диалог только в токенах описания инструментов. Режим кода сводит это к единовременной загрузке типа 1 000 токенов, сокращая стоимость описания каждого разговора до долей цента. При 10 000 разговоров в месяц разница составляет примерно 4400 долларов.

Начните разработку с botoi

150+ API-эндпоинтов для поиска, обработки текста, генерации изображений и утилит для разработчиков. Бесплатный тариф, без банковской карты.