Langsung ke konten
Guide

Mode Kode Cloudflare MCP: berhenti membayar 1 juta token untuk menjelaskan alat Anda

| 7 min read

Cloudflare memotong definisi alat MCP dari 1,17 juta token menjadi 1 ribu dengan membiarkan agen menulis kode pada permukaan API yang diketik. Berikut cara kerja polanya dan kapan menggunakannya.

Code on a monitor representing MCP tool schemas and token usage
Photo by Fotis Fotopoulos on Unsplash

Server MCP dengan 49 alat membakar sekitar 29.000 token input sebelum pengguna Anda mengetik satu karakter. Server dengan 2.500 alat, yang kira-kira sama dengan yang dikirimkan Cloudflare secara internal, membakar 1,17 juta. Itu adalah jendela input penuh dari Claude Opus yang digunakan untuk menjelaskan alat, bukan menyelesaikan masalah pengguna. Setiap giliran membayar tagihan lagi. Setiap percobaan ulang akan membuahkan hasil lagi. Dalam skala besar, item baris untuk "definisi alat" melebihi item baris untuk "pekerjaan sebenarnya".

Pada bulan April 2026 Cloudflare dikirimkan Mode Kode MCP, sebuah pola yang meruntuhkannya 1,17 juta jejak token menjadi sekitar 1.000 token, pengurangan sebesar 99,9%. Caranya sederhana: berhenti mendeskripsikan alat ke model. Berikan model API yang diketik dan kotak pasir, dan biarkan model menulis kode yang memanggil alat. Inilah alasan mengapa pola klasik membocorkan token, bagaimana Mode Kode memperbaikinya, dan kapan Anda harus repot-repot beralih.

Masalah token 1,17 juta

MCP klasik mengirimkan definisi alat sebagai bagian dari konteks sistem pada setiap permintaan. Setiap alat membawa nama, deskripsi, skema masukan, dan seringkali skema keluaran. Contoh yang ringkas untuk alat pencarian cuaca terlihat seperti ini:

Skema yang satu itu menjalankan sekitar 600 token setelah Anda menghitung overhead struktural JSON, yaitu deskripsi yang dibutuhkan model untuk memilih alat, dan nilai enum. Kalikan dengan 49 hasil kurasi alat di server MCP botoi dan Anda mendapatkan sekitar 29.400 token per giliran. 10 putaran percakapan membayarnya 10 kali lipat, karena model tidak memiliki memori antara belokan dan orkestrator mengirimkan seluruh paket setiap saat. Skalakan jumlah alat hingga Cloudflare penuh permukaan API internal (sekitar 2,500 titik akhir) dan biaya per putaran mencapai 1,17 juta token, yang bahkan melebihi jendela Opus 1 juta token.

Hitung jejak Anda sendiri dalam satu panggilan. Penghitung token Botoi menerima string apa pun; memberinya makan a skema alat dan Anda mendapatkan jumlah token Antropik yang tepat:

Bagaimana Mode Kode MCP membalik polanya

Manusia tidak membaca skema API sebelum setiap panggilan. Anda membaca dokumen sekali, membuka editor, dan tulis kode yang mengimpor fungsi. Runtime menangani pengiriman. Mode Kode memberi model pengaturan yang sama.

Agen berjalan di dalam isolat V8 (kotak pasir Pekerja Cloudflare). Alat MCP muncul saat diketik fungsi pada objek yang diimpor. Model melihat deklarasi tipe TypeScript, bukan JSON siaran skema. Ketika pengguna bertanya "bagaimana kualitas udara di tempat saya tinggal", model tersebut menulis a program singkat:

// The agent writes this. The runtime compiles and executes it.
// Only the two functions it calls ever hit the wire.
import { botoi } from "@botoi/mcp";

export async function run(input: { city: string }) {
  const weather = await botoi.weather.current({ city: input.city });
  const air = await botoi.airQuality.check({
    lat: weather.lat,
    lon: weather.lon,
  });

  return {
    city: input.city,
    temp: weather.temp_c,
    aqi: air.aqi,
    advice: air.aqi > 100 ? "stay inside" : "go for a walk",
  };
}

Runtime mengkompilasi cuplikan, menjalankannya di dalam isolasi, dan hanya dua yang berfungsi sebenarnya panggilan (botoi.weather.current Dan botoi.airQuality.check) menyentuh jaringan. Model tersebut tidak pernah melihat skema untuk 47 alat lainnya, karena tidak pernah diperlukan untuk. Jenis file berada di disk satu kali dan menginformasikan kepada kompiler, bukan jendela konteks.

Mode Kode lebih mirip dengan cara Anda menulis skrip terhadap SDK daripada cara Anda mengarahkan formulir. Output model adalah kode, tugas runtime adalah mengeksekusi kode dengan aman, dan biaya jaringan memetakan ke panggilan nyata, bukan panggilan hipotetis.

Perhitungan di server 49 alat botoi

Server MCP Botoi menampilkan 49 alat yang dikurasi di seluruh pencarian, teks, pengembang, gambar, dan keamanan kategori. Tabel di bawah ini membandingkan MCP klasik dengan Mode Kode untuk beban kerja umum: Percakapan 10 putaran, 10.000 percakapan per bulan, harga masukan Opus.

Metrik MCP klasik Mode Kode MCP
Token per giliran (deskripsi alat) 29.400 0 (ketik file dimuat satu kali)
Beban permukaan tipe cold-start 0 ~1.000 token
Biaya percakapan 10 putaran dalam deskripsi 294.000 token 1.000 token
Mode kegagalan primer Model memilih alat yang salah Kode yang dihasilkan muncul saat runtime
Kemampuan debug Jejak panggilan alat Pelacakan tumpukan ditambah pelacakan panggilan alat
Kasus penggunaan yang paling sesuai <10 alat, klien desktop 50+ alat, alur kerja multi-langkah
Menambahkan latensi Tidak ada Kompilasi 10-50 ms + isolasi startup

Pada tingkat input Opus (kira-kira $15 per juta token), pola klasik berharga sekitar $0,44 per Percakapan 10 putaran hanya dalam token deskripsi alat. Mode Kode menurunkannya menjadi pecahan a sen. Melalui 10.000 percakapan sebulan, Anda menghemat sekitar $4.400 dan memperoleh kembali 2,9 miliar token anggaran konteks untuk pekerjaan yang penting.

Ukur server Anda sendiri hari ini sebelum Anda berkomitmen pada salah satu pola:

Kapan Mode Kode layak digunakan, padahal tidak

Mode Kode tidak gratis. Sandbox menambahkan 10 hingga 50 milidetik kompilasi dan isolasi startup per giliran. Kode yang dihasilkan dapat dibuang, yang berarti Anda memerlukan logika percobaan ulang dan jalur cadangan. Proses debug bergeser dari "model memilih alat yang salah" menjadi "model menulis kode itu mereferensikan simbol yang tidak terdefinisi." Tumpukan observabilitas Anda perlu menangkap kedua kode sumber dan alat menyebutnya dipicu.

Tetap gunakan MCP klasik ketika:

  • Anda mengekspos kurang dari 10 alat dan jejak skema kurang dari 6.000 token.
  • Klien target Anda adalah Claude Desktop, Cursor, atau VS Code (mereka hanya berbicara MCP klasik).
  • Perulangan agen bersifat single-shot: satu pesan pengguna, satu panggilan alat, satu respons.
  • Anggaran latensi terbatas dan Anda tidak dapat menghabiskan biaya kompilasi 10-50 md.

Beralih ke Mode Kode ketika:

  • Anda mengekspos 50 alat atau lebih, atau jejak skema Anda melintasi 15.000 token.
  • Alur kerja berantai 3+ panggilan alat, karena Mode Kode menghindari pendeskripsian ulang alat pada setiap lompatan.
  • Anda memiliki runtime (Agen Cloudflare, Mastra, LangGraph) dan dapat mengkompilasi keluaran agen.
  • Item baris terbesar pada RUU Antropik berbunyi "token input sistem".

Jalur migrasi tanpa menulis ulang server Anda

Anda tidak harus memilih satu pola. Sebagian besar tim harus menjalankan keduanya dan merutekan klien berdasarkan kemampuan. Berikut adalah jalur tiga langkah yang menghindari penulisan ulang server MCP Anda:

Langkah 1: ukur. Ambil manifes alat MCP Anda dan jalankan melalui token penghitung. Jika Anda melewati 15.000 token, Mode Kode akan membuahkan hasil. Jika Anda berada di bawah 6.000, lewati sisa posting ini.

Langkah 2: ekspos permukaan yang diketik di samping MCP. Anda sudah memiliki OpenAPI spesifikasi jika Anda menjalankan API HTTP. Hasilkan tipe TypeScript darinya (SDK botoi melakukan ini; lihat packages/sdk-typescript) dan tuan rumah hasilnya .d.ts berkas di a URL stabil. Runtime Mode Kode mengambil file ini satu kali per sesi dan menggunakannya sebagai impor sasaran. Titik akhir MCP Anda tetap melayani klien klasik tanpa perubahan.

Langkah 3: rute berdasarkan klien. Claude Desktop, Cursor, dan VS Code terus menyerang /mcp dan menerima skema alat klasik. Kerangka kerja agen (Agen Cloudflare, Mastra, LangGraph) mencapai kesuksesan baru /code-mode rute yang mengembalikan definisi tipe dan pegangan runtime. Server yang sama, logika bisnis yang sama, dua protokol.

Botoi mengirimkan kedua bentuk tersebut hari ini. Titik akhir MCP klasik di api.botoi.com/mcp menyajikan 49 alat yang dikurasi dengan skema JSON lengkap untuk klien desktop. SDK yang diketik di api.botoi.com/docs memberikan kerangka kerja agen permukaan impor file tunggal. Penutup tingkat gratis (5 permintaan/mnt, tanpa kunci). eksplorasi; tingkat pengembang (1.000 permintaan/hari dengan kunci gratis) mencakup loop agen produksi. Jika item baris terbesar RUU Antropik adalah deskripsi alat, peralihan akan menghasilkan keuntungan tersendiri di dalamnya minggu pertama.

FAQ

Mengapa menyuntikkan skema alat membuang-buang token ketika model hanya memanggil satu alat?
MCP klasik mengirimkan skema JSON setiap alat ke dalam konteks sistem di setiap kesempatan, sehingga model membayar biaya penuh baik memanggil satu alat atau tidak sama sekali. Model tidak dapat mengetahui alat mana yang ada kecuali Anda memberitahukannya, dan Anda memberitahukannya dengan skema. Mode Kode menggantikan siaran tersebut dengan definisi tipe tunggal yang digunakan runtime hanya ketika kode yang dihasilkan benar-benar mengimpor suatu fungsi.
Apakah Mode Kode berfungsi dengan Claude Desktop atau Kursor saat ini?
Belum. Integrasi MCP Claude Desktop, Cursor, dan VS Code semuanya menggunakan protokol MCP klasik, sehingga mereka masih menerima skema alat inline. Mode Kode Cloudflare menargetkan kerangka kerja agen (Agen Cloudflare, Mastra, LangGraph) tempat Anda mengontrol waktu proses dan dapat mengkompilasi keluaran agen sebelum menjalankannya.
Bagaimana dengan keamanan, bukankah membiarkan model menulis kode berisiko?
Itulah sebabnya Mode Kode menjalankan kode yang dihasilkan di dalam isolasi V8 tanpa akses sistem file, tidak ada akses jaringan di luar permukaan API yang diketik, dan anggaran CPU. Sandbox memiliki bentuk yang sama dengan yang digunakan Cloudflare untuk Pekerja. Model tidak dapat keluar dari isolasi seperti halnya pengguna tidak dapat keluar dari tab browser.
Bisakah saya menggunakan MCP Klasik dan Mode Kode dari server yang sama?
Ya, dan Anda harus melakukannya. Pertahankan titik akhir MCP klasik untuk klien desktop dan editor yang memerlukan penemuan alat tanpa konfigurasi. Tambahkan permukaan yang diketik (tipe OpenAPI atau TypeScript) untuk kerangka kerja agen yang menjalankan Mode Kode. Botoi melakukan hal ini hari ini: titik akhir MCP melayani Claude Desktop, dan spesifikasi OpenAPI mendukung SDK yang diimpor oleh kerangka kerja agen sebagai definisi tipe.
Berapa sebenarnya penghematan pada RUU Antropis?
Untuk server 49 alat pada tingkat input Opus Anthropic, 29.400 token per giliran berharga sekitar $0,44 per percakapan 10 putaran hanya dalam token deskripsi alat. Mode Kode menciutkannya menjadi pemuatan jenis token 1K satu kali, memotong biaya deskripsi per percakapan hingga sepersekian sen. Pada 10.000 percakapan sebulan, perbedaannya kira-kira $4.400.

Mulai membangun dengan botoi

150+ endpoint API untuk pencarian, pemrosesan teks, pembuatan gambar, dan utilitas developer. Paket gratis, tanpa kartu kredit.