Agen AI Anda membakar 21.000 token untuk memperbaiki kesalahan ketik: 6 pola biaya
Satu sesi Kode Claude yang terdokumentasi menggunakan 21.000 token masukan untuk memperbaiki satu karakter. Enam pola yang memotong tagihan token sebesar 60 hingga 80%, dengan kode dan bilangan real.
Seorang pengembang di Morph mendokumentasikan sesi Kode Claude yang menggunakan lebih dari 21.000 token masukan memperbaiki kesalahan ketik satu karakter. Itu setara dengan membaca novel pendek untuk mengubahnya surat. Sesi ini membakar token yang mengirimkan ulang riwayat percakapan lengkap di setiap kesempatan, mencoba kembali panggilan alat yang gagal, dan membaca ulang tiga file yang sama yang telah dimuat agen dua kali.
Tidak ada sesuatu pun dalam sesi itu yang luar biasa. Agen pengkodean mengirim ulang riwayat di setiap kesempatan, panggilan alat berkembang biak di tengah belokan, dan jendela cache prompt 5 menit mudah untuk dilewatkan. Sebuah tim menjalankan Claude Code atau Cursor pada beban kerja yang sama dapat menghasilkan tagihan token yang bervariasi sebesar 10x tergantung pada apakah keenam pola ini ada.
Ini dia, masing-masing dengan perubahan kode yang membuka penghematan dan angka realistis untuk apa itu memotong.
Pola 1: membatasi iterasi dan menerapkan anggaran token
Cara tercepat untuk membakar token adalah loop agen tanpa kondisi keluar. Agen mencapai angka 400 kesalahan, coba lagi dengan masukan buruk yang sama, coba lagi dengan masukan buruk yang sedikit berbeda, coba lagi, dan seterusnya. Dengan iterasi 40 Anda telah menghabiskan 80.000 token tidak menghasilkan apa pun.
Versi tak terbatas yang disertakan dalam setiap tutorial:
Versi yang tidak akan membangunkan Anda pada jam 2 pagi:
Dua topi; satu pada iterasi, satu pada total token. Batas iterasi menyebabkan badai percobaan ulang. Itu anggaran token menangkap tugas-tugas jangka panjang yang masih konvergen tetapi melampaui nilai dolar masuk akal. Jika agen tidak dapat menyelesaikan masalah dalam 20 panggilan alat, perbaikannya adalah perintah yang lebih baik atau a alat yang lebih baik, bukan lebih banyak iterasi.
Catatan stats.iterations di samping stats.inputTokens dalam metrik Anda
saluran pipa. Tugas yang diselesaikan dalam 3 hingga 5 iterasi adalah tugas yang sehat. Tugas disematkan pada 18 hingga 20
iterasi adalah percobaan ulang badai yang memerlukan penulisan ulang segera, bukan peningkatan batas.
Pola 2: tandai konteks statis panjang sebagai dapat di-cache
Cache tagihan cache Anthropic mencapai 10% dari tingkat input dan penulisan cache sebesar 125%. Untuk panduan gaya 10.000 token yang digunakan kembali pada 100 panggilan dalam TTL 5 menit, proses yang di-cache menghabiskan biaya sekitar 12% dari proses yang tidak di-cache.
Menambahkan cache_control ke blok konten adalah satu baris. Melewatkannya adalah hal yang paling umum
kesalahan biaya dalam kode agen produksi:
Cache hidup selama 5 menit. Jika agen Anda melakukan satu panggilan setiap 20 menit, Anda membayar cache menulis premi tanpa mengamortisasinya, dan caching menghabiskan uang Anda. Jika agen Anda meledak 10 hingga 50 panggilan dalam waktu kurang dari 5 menit, perhitungannya menguntungkan Anda.
Angka konkret: sesi peninjauan 40 panggilan dengan panduan gaya 8K, tanpa cache, biayanya sekitar 40 * 8.000 = 320.000 token masukan untuk panduan gaya saja. Dengan caching: 10.000 (tulis pada 125%) + 39 * 800 (dibaca 10%) = 41.200 token yang dapat ditagih. Itu adalah pengurangan 87% pada blok yang dapat digunakan kembali.
Pola 3: merangkum hasil sesi yang panjang
Pada giliran ke 30 suatu sesi, agen membaca ulang putaran 1 hingga 29 pada setiap panggilan. Belokan awal berisi konteks penyiapan yang sudah lama tidak dapat ditindaklanjuti. Kompres mereka.
Ringkasnya dengan Haiku, bukan model mahal yang sama yang menggerakkan putaran utama. Ringkasannya bisa hilang rincian; simpan secukupnya untuk mempertahankan jalur file, nama fungsi, dan keputusan yang telah diambil agen dibuat. 6 putaran terakhir tetap sama persis sehingga model masih memiliki hasil pemanggilan alat terbaru dan berfungsi konteks.
Untuk sesi yang akan mencapai 120 ribu token input per putaran, kompresi putaran 1 hingga 24 menjadi ringkasan 400 token memotong input per putaran menjadi sekitar 8K. Senyawa tabungan: pada 10 berikutnya ternyata, itu adalah satu juta token yang tidak Anda kirim.
Pola 4: RAG pada pembacaan file lengkap untuk bahan referensi
Mengirim tiga file utuh setiap giliran karena agen mungkin membutuhkannya adalah bentuk yang paling terlihat limbah. Pencarian penyimpanan vektor mengembalikan 5 referensi potongan 180 token yang paling relevan konteks sebesar 60 hingga 80% sambil menjaga keakuratan pertanyaan yang ditargetkan.
Aturan praktisnya: file di bawah token 3K langsung masuk; file lebih dari 10 ribu token terpotong dan diambil; file di antaranya bergantung pada apakah agen akan memindai semuanya atau mencari a fungsi tertentu. Untuk spesifikasi API, situs dokumentasi, dan skema konfigurasi, RAG sangat ketat lebih baik. Untuk file yang sedang diedit secara aktif oleh agen, pertahankan agar tetap inline.
Pola 5: memindahkan pekerjaan deterministik ke panggilan alat yang diketik
Token yang paling mahal adalah token keluaran yang digunakan untuk memikirkan masalah yang seharusnya dilakukan model tidak pernah diminta untuk menyelesaikannya. Tugas yang deterministik dan terstruktur termasuk dalam alat:
- Sintaks email plus MX plus cek sekali pakai
- Penguraian telepon ke E.164 dengan deteksi negara
- Masa berlaku sertifikat SSL dan validasi rantai
- Validasi skema JSON, konversi JSON ke TypeScript
- Hashing, pembuatan UUID, pengkodean base64, konversi stempel waktu
- Pemeriksaan SPF, DMARC, DKIM; Pencarian catatan DNS
Versi sebelumnya berharga ~2.400 token per panggilan dan terkadang membuat data MX berhalusinasi. Setelahnya versi berharga ~230 token, memanggil titik akhir yang diketik, dan mengembalikan jawaban yang divalidasi skema. Itu agen mendapatkan informasi yang sama untuk 10% biaya dan tidak ada kesalahan penalaran.
Di sinilah API eksternal cocok dengan tumpukan agen. Panggilan alat yang berakhir di a permintaan HTTP tunggal ke titik akhir yang diketik menghapus biaya token keluaran dan kelasnya halusinasi. Titik akhir Botoi apa pun dapat digabungkan sebagai alat Claude atau OpenAI dalam beberapa baris, atau dipanggil langsung melalui server Botoi MCP yang memaparkan 49 di antaranya sebagai alat MCP.
Pola 6: rute berdasarkan jenis tugas ke model termurah yang dapat diterima
Opus berharga 5x Soneta dan 15x Haiku per token masukan. Sebagian besar tugas dalam loop agen tidak memerlukan Opus. Klasifikasi, ekstraksi, perutean panggilan alat singkat, dan kompresi ringkasan semuanya berjalan dengan baik Haiku. Pertahankan Opus untuk keputusan arsitektur dan proses debug yang sulit.
Agen beban kerja campuran yang menjalankan setiap langkah di Opus mengalami penurunan sebesar 62% setiap bulannya tagihan dengan merutekan hanya tugas "rencana" ke Opus dan mendorong klasifikasi/ekstrak ke Haiku. Akurasi regresi pada tugas-tugas tersebut adalah nol karena tugas-tugas tersebut bersifat deterministik pada awalnya.
Pola Alat Penasihat Claude mengambil langkah lebih jauh: Soneta menggerakkan loop utama dan memanggil Opus generasi menengah untuk mendapatkan opini kedua tentang keputusan tertentu. Satu panggilan, dua model, hampir Opus kualitas dengan biaya Soneta.
Instrumen sebelum Anda mengoptimalkan
Anda tidak dapat memotong apa yang tidak dapat Anda lihat. Catat statistik token per proses segera setelah Anda mengirim agen ke sana produksi:
Pipa runs.jsonl ke dalam apa pun yang sudah Anda gunakan untuk metrik. Data minggu pertama
akan menampilkan beberapa proses yang memakan 3x median. Itu adalah putaran percobaan ulang Anda. Minggu berikutnya
akan menampilkan proses mahal tingkat kedua yang cachenya hilang karena jendela cache sudah tidak berlaku.
Perbaiki berdasarkan urutan biaya, bukan berdasarkan frekuensi.
Menyatukannya: penghematan yang diharapkan berdasarkan pola
| Pola | Penghematan yang khas | Upaya untuk mengirim |
|---|---|---|
| Iterasi + batas token | 40-90% pada proses patologis | Rendah (satu jam) |
| Cache cepat pada konteks yang dapat digunakan kembali | 60-90% pada blok cache | Rendah (satu baris per blok) |
| Ringkasan ekor | 30-70% pada sesi panjang | Sedang (logika kompresi) |
| RAG untuk bahan referensi | 60-80% pada konten yang diambil | Sedang (pengaturan penyimpanan vektor) |
| Pembongkaran alat untuk pekerjaan deterministik | 70-95% pada tugas yang diturunkan | Rendah (definisi alat + panggilan HTTP) |
| Perutean model berdasarkan jenis tugas | 50-80% tercampur | Rendah (fungsi router) |
Tumpuk keenamnya. Sebuah tim beralih dari "semua yang ada di Opus, tanpa cache, file lengkap, batas 40 iterasi" ke "Perutean Haiku-Sonnet, perintah sistem yang di-cache, RAG, alat yang diketik, batas 20 iterasi" terputus secara teratur pembelanjaan bulanan sebesar 70 hingga 85% dengan tingkat penyelesaian tugas yang sama atau lebih baik.
Poin-poin penting
- Tutup iterasi dan token, bukan jam dinding. Batas 20 iterasi / 150 ribu token berhenti mencoba lagi badai sebelum menyebabkan Anda kehilangan uang.
-
Tandai konteks yang dapat digunakan kembali sebagai dapat di-cache. Satu
cache_controlbelokan garis sesi 40 panggilan dari 320 ribu token yang dapat ditagih menjadi 41 ribu. - Ringkaslah bagian ekornya dengan Haiku, pertahankan bagian kepalanya kata demi kata. Ternyata yang lama tidak lagi ada dapat ditindaklanjuti lebih cepat dari yang diketahui sebagian besar agen.
- Ambil, jangan kirim, materi referensi. RAG memotong 60-80% token input untuk dokumen, spesifikasi, dan skema yang dipindai oleh agen, bukan diedit.
- Alat-sebut pekerjaan deterministik. Validasi email, pencarian DNS, hashing, konversi JSON; tidak ada satupun yang layak untuk dijadikan alasan.
- Rute berdasarkan jenis tugas. Haiku untuk mengklasifikasikan/mengekstrak, Soneta untuk alasan, Opus untuk rencana. Tagihan gabungan turun 50 hingga 80% tanpa kehilangan akurasi pada tugas terstruktur.
Botoi memberi Anda 150+ titik akhir yang diketik dan 49 alat server MCP yang siap dihubungkan ke loop agen mana pun. Mengganti token penalaran dengan panggilan HTTP memerlukan biaya sekitar 230 token per tugas deterministik bukannya 2.000+. Coba dokumen API interaktif atau sambungkan Claude Code, Cursor, atau VS Code ke server MCP dalam satu blok config, lalu lihat garis token Anda di dasbor biaya menjadi rata.
FAQ
- Mengapa agen pengkodean AI menggunakan begitu banyak token untuk perubahan kecil?
- Agen pengkodean mengirimkan ulang riwayat percakapan lengkap di setiap kesempatan. Sesi 30 putaran yang dimulai dengan tiga pembacaan file besar mengirimkan pembacaan tersebut setiap putaran, dikalikan dengan berapa banyak panggilan alat yang dilakukan agen di antara putaran. Perbaikan kesalahan ketik yang terlihat sepele bagi manusia dapat berubah menjadi 20 hingga 30 perjalanan bolak-balik, masing-masing membawa 1.000 hingga 1.500 token konteks yang sudah dilihat oleh model. Senyawa aritmatika dengan cepat.
- Berapa banyak yang dihemat oleh cache cepat pada panggilan Anthropic?
- Cache cepat Anthropic membebankan biaya 10% dari tingkat token input untuk cache hit dan 125% untuk penulisan cache. Untuk prompt sistem 10.000 token yang digunakan kembali pada 100 panggilan dalam TTL 5 menit, biaya proses yang di-cache sekitar 12% dari proses yang tidak di-cache; satu tulisan pada 125% ditambah 99 bacaan pada 10%. Semakin besar konteks penggunaan kembali Anda, semakin besar pula penghematannya.
- Batas iterasi apa yang harus saya tetapkan pada loop agen?
- Mulai dari 15 hingga 25 iterasi untuk satu tugas logis. Jika agen Anda tidak dapat mencapai jawaban yang benar dalam 15 panggilan alat, agen Anda mungkin tidak akan mencapai jawaban yang benar dalam 50 panggilan alat; ini lebih mungkin terjebak dalam putaran percobaan ulang atau argumen alat yang berhalusinasi. Tambahkan pemeriksaan anggaran yang menghentikan perulangan ketika sesi melewati ambang batas token, bukan batas jam dinding. Pembelanjaan token dipetakan ke biaya dolar; jam dinding tidak.
- Kapan masuk akal untuk memanggil API HTTP eksternal dari agen alih-alih meminta model menghitung jawabannya?
- Kapan pun tugasnya bersifat deterministik dan terstruktur: validasi email, penguraian telepon, pemeriksaan SSL, decoding base64, pembuatan UUID, komputasi hash, validasi skema JSON. Model tidak boleh menghabiskan 500 token keluaran untuk mempertimbangkan apakah support@acme.com memiliki data MX yang valid. Panggilan alat tunggal ke titik akhir yang diketik akan mengembalikan jawaban dalam 30 token dan menghilangkan kelas halusinasi.
- Apakah RAG selalu mengalahkan memasukkan seluruh file ke dalam konteks?
- Untuk materi referensi yang sebagian besar dibaca (dokumen, skema konfigurasi, spesifikasi API), ya; tim yang beralih ke pengambilan RAG 5K token biasanya memotong token input sebesar 60 hingga 80% dibandingkan mengirim file lengkap. Untuk file kecil dengan token 3K yang sepenuhnya sesuai dengan konteks, RAG menambahkan kompleksitas tanpa penghematan. Aturannya: jika konten yang relevan berada di bawah token 3K, sebariskan; jika lebih dari 10 ribu token dan agen hanya membutuhkan sepotong, ambillah.
Mulai membangun dengan botoi
150+ endpoint API untuk pencarian, pemrosesan teks, pembuatan gambar, dan utilitas developer. Paket gratis, tanpa kartu kredit.