Bagaimana cara mengetahui apakah agen AI memanggil API saya?

Carilah tiga sinyal: string Agen-Pengguna yang berisi nama kerangka agen (langchain, crewai, autogen), pola permintaan bursty di mana 5 hingga 15 titik akhir dipanggil secara berurutan dengan jeda sub-detik, dan header korelasi seperti X-Session-ID atau X-Agent-Run-ID. Anda juga dapat memeriksa urutan penggunaan alat di mana pencarian DNS, SSL, dan header terjadi dalam urutan yang dapat diprediksi dalam hitungan detik.

Apa algoritma pembatas tarif terbaik untuk lalu lintas agen AI?

Bucket token berfungsi paling baik untuk beban kerja agen. Agen mengirimkan 5 hingga 15 permintaan dalam hitungan detik, lalu menganggur. Token bucket memungkinkan semburan terkontrol hingga batas kapasitas sambil menerapkan tingkat pengisian ulang yang berkelanjutan. Memperbaiki jeda pembatasan laju jendela karena agen dapat menghabiskan batas jendela penuh dalam 2 detik dan kemudian diam selama 58 detik.

Bagaimana cara melacak alur kerja agen AI multi-langkah di seluruh panggilan API?

Minta agen mengirimkan header X-Agent-Run-ID dengan setiap permintaan dalam alur kerja. Di sisi server, buat rentang induk OpenTelemetry untuk setiap ID eksekusi unik dan buat rentang titik akhir individual di bawahnya. Ini memberi Anda tampilan pelacakan tunggal yang menunjukkan pencarian DNS memerlukan waktu 45 md, pemeriksaan SSL memerlukan waktu 120 md, dan header memerlukan waktu 30 md, semuanya dalam satu alur kerja agen.

Haruskah saya menetapkan batasan tarif yang berbeda untuk agen AI versus pengguna manusia?

Ya. Pengguna manusia membuat 1 hingga 3 permintaan per menit dengan jeda panjang di antaranya. Agen membuat 5 hingga 15 permintaan dalam waktu 2 detik, lalu tidak melakukan apa pun selama beberapa menit. Jendela tetap per menit menghukum agen secara tidak adil. Gunakan keranjang token dengan kapasitas burst yang lebih tinggi (misalnya, 20 permintaan) dan laju berkelanjutan yang lebih rendah (misalnya, 5 token per detik) sehingga agen dapat menyelesaikan alur kerja tanpa mencapai kesalahan 429.

Guide

Observabilitas API ketika agen AI adalah penelepon terberat Anda

11 Apr 2026 | 9 min read

Gartner mengatakan 30% lalu lintas API baru berasal dari LLM. Lima pola observasi untuk mendeteksi pemanggil agen, melacak rantai penggunaan alat, dan menetapkan batas kecepatan yang sesuai dengan beban kerja yang banyak.

Analytics dashboard with data visualizations representing API traffic monitoring — Photo by Mika Baumeister on Unsplash

Dasbor API Anda menunjukkan lonjakan lalu lintas 4x pada pukul 3 pagi. Tidak ada kampanye pemasaran. Tidak ada peluncuran produk. Tidak Ada Berita Peretas posting. Agen AI menemukan titik akhir Anda melalui server MCP dan mulai menjalankan keamanan multi-langkah audit; Pencarian DNS, pemeriksaan SSL, analisis header, 15 titik akhir dalam semburan 2 detik, setiap 10 menit.

Ini normal sekarang. Gartner memproyeksikan bahwa 30% atau lebih pertumbuhan permintaan API akan berasal dari agen yang didukung oleh LLM 2026. Survei dari Cisco menemukan bahwa 89% organisasi sudah memantau perilaku agen dalam produksi. Itu lalu lintas di sini. Pertanyaannya adalah apakah tumpukan observasi Anda dapat membedakan antara manusia pengembang menguji titik akhir dan agen menjalankan alur kerja 12 langkah pada pukul 3 pagi.

Alat APM tradisional mengumpulkan metrik per titik akhir. Mereka menunjukkan hal itu kepada Anda /v1/dns/lookup mendapat 500 permintaan dalam satu jam terakhir, tetapi mereka tidak akan memberi tahu Anda bahwa 480 di antaranya berasal dari 40 agen yang berjalan, masing-masing menelepon Pencarian DNS, pemeriksaan SSL, dan analisis header dalam urutan yang dapat diprediksi. Titik buta itu merugikan Anda; kamu tidak bisa menetapkan batas tarif yang sesuai, Anda tidak dapat men-debug kegagalan agen, dan Anda tidak dapat memperkirakan biaya infrastruktur.

Lima pola memperbaikinya. Masing-masing mengatasi kesenjangan tertentu antara apa yang disediakan APM standar dan apa yang Anda berikan butuhkan ketika agen adalah penelepon terberat Anda.

Mengapa APM tradisional melewatkan lalu lintas agen

Pengembang manusia memanggil satu titik akhir, membaca responsnya, dan mungkin memanggil titik akhir lainnya beberapa menit kemudian. Agen AI memanggil 5 hingga 15 titik akhir secara berurutan, menguraikan setiap respons secara terprogram, mencoba ulang jika gagal, dan berpindah ke alur kerja berikutnya. Kedua bentuk lalu lintas ini terlihat identik pada setiap titik akhir tingkat tetapi berperilaku berbeda dalam segala hal yang penting bagi operasi.

Dimensi	Lalu lintas manusia	Lalu lintas agen
Minta irama	1-3 permintaan per menit, jeda panjang	5-15 permintaan dalam 2 detik, lalu menganggur
Keberagaman titik akhir	1-2 titik akhir per sesi	5-12 titik akhir per alur kerja
Coba lagi perilaku	Coba lagi secara manual setelah kesalahan membaca	Coba lagi segera, kemunduran eksponensial jika diberi kode
Waktu hari ini	Jam kerja, selaras dengan zona waktu	24/7, sering kali cron dipicu pada jam-jam ganjil
Penanganan kesalahan	Membaca pesan kesalahan, menyesuaikan permintaan	Coba lagi permintaan yang sama atau lewati ke alat berikutnya
Durasi sesi	Menit ke jam	2-30 detik per alur kerja

Datadog, New Relic, dan Grafana menunjukkan persentil latensi per titik akhir dan tingkat kesalahan. Mereka tidak melakukannya menunjukkan kepada Anda "agen menjalankan #a3f7 memanggil 8 alat secara berurutan, gagal pada alat 6, mencoba lagi 4 kali, dan terbakar melalui 35 panggilan API untuk menyelesaikan tugas yang seharusnya memakan waktu 8." Anda memerlukan penelusuran yang dibuat khusus untuk itu.

Platform seperti Langfus, Arize Phoenix, Kepercayaan otak, Dan helikopter berspesialisasi dalam observasi agen. Mereka melacak rantai penggunaan alat, token konsumsi, dan jalur keputusan agen. OpenTelemetry (OTEL) menyatu sebagai telemetri standar format yang menghubungkan platform ini ke infrastruktur Anda yang ada.

Pola 1: mendeteksi penelepon agen

Sebelum Anda dapat mengamati lalu lintas agen, Anda perlu mengidentifikasinya. Tiga sinyal bekerja sama: String Agen-Pengguna, irama permintaan, dan header eksplisit.

Pencocokan Agen-Pengguna

Kerangka kerja agen menetapkan string Agen-Pengguna yang dapat diidentifikasi. LangChain, CrewAI, AutoGen, dan SDK Antropis semuanya menyertakan nama kerangka kerja di header defaultnya. Permintaan yang dihasilkan SDK dari perpustakaan seperti axios, node-fetch, Dan python-requests juga menandakan non-browser lalu lintas.

Minta deteksi irama

Manusia tidak memanggil 4 titik akhir berbeda dalam waktu 5 detik. Detektor irama sisi server menandai klien yang mencapai beberapa titik akhir unik dalam waktu singkat:

Middleware deteksi penuh

Gabungkan kedua sinyal ke dalam middleware yang menandai setiap permintaan sebagai agen atau manusia. Tag ini mengalir ke lapisan logging, metrik, dan pembatas tarif Anda:

Itu X-Agent-Detected header respons memungkinkan pengembang agen mengonfirmasi permintaan mereka diklasifikasikan dengan benar. Tingkat kepercayaan dimasukkan ke dalam aturan peringatan Anda; kepercayaan diri yang “tinggi”. deteksi (header eksplisit) bersifat pasti, sedangkan "medium" (kecocokan UA) mungkin memerlukan konfirmasi irama.

Pola 2: lacak rantai multi-alat dengan OpenTelemetry

Agen yang memanggil server MCP botoi untuk mengaudit domain akan terkena /v1/dns/lookup, Kemudian /v1/ssl-cert/certificate, Kemudian /v1/headers dalam hitungan detik. Dalam standar APM, ini adalah tiga permintaan terpisah dan tidak terkait. Dengan berbagi X-Agent-Run-ID tajuk dan rentang OpenTelemetry, keduanya menjadi satu alur kerja yang dapat dilacak.

Setiap alur kerja agen mendapatkan rentang induk. Setiap pemanggilan alat menjadi rentang anak yang bersarang di bawahnya. Di Jaeger, Grafana Tempo, atau backend apa pun yang kompatibel dengan OTEL, Anda akan melihat rantai lengkapnya: Pencarian DNS memerlukan waktu 45 md, Pemeriksaan SSL memerlukan waktu 120 md, header memerlukan waktu 30 md, total waktu alur kerja 210 md. Ketika alat 6 dari 8 gagal dan agen mencobanya lagi 4 kali, Anda melihatnya di jejak alih-alih menelusuri log titik akhir yang terpisah.

Itu agent.tool_index atribut pada setiap rentang memungkinkan Anda merekonstruksi urutan yang tepat operasi. Ini penting saat melakukan debug: "mengapa agen memanggil pemeriksaan SSL sebelum pencarian DNS?" menjadi jejak yang dapat dilihat sekilas, bukan latihan korelasi log.

Pola 3: batas kecepatan untuk beban kerja yang meledak-ledak

Pembatas tingkat jendela tetap menghukum agen. Seorang agen mengirimkan 15 permintaan dalam 2 detik untuk menyelesaikan a alur kerja, lalu diam selama 58 detik. Jendela tetap "60 permintaan per menit" sudah banyak ruangan, tetapi jendela tetap "5 permintaan per 5 detik" memblokir agen berdasarkan permintaan 6, bahkan meskipun tingkat berkelanjutannya masih berada di bawah batas.

Ember token memecahkan masalah ini. Kapasitas bucket mengontrol ukuran burst (berapa banyak permintaan yang dapat dilakukan agen api dalam satu ledakan), dan laju isi ulang mengontrol keluaran yang berkelanjutan (seberapa cepat ember pulih). Dua parameter yang memetakan cara kerja agen.

Wawasan utamanya: agen memerlukan kapasitas ledakan yang lebih tinggi dan laju berkelanjutan yang sebanding. Pengguna manusia dengan ember 5 token dan kecepatan isi ulang 0,5 token/detik dapat membuat 5 permintaan cepat dan kemudian satu permintaan setiap 2 detik. Agen dengan keranjang 20 token dan isi ulang 2 token/detik dapat menjalankan alur kerja 15 titik akhir dalam satu ledakan dan isi ulang ember untuk putaran berikutnya 10 detik kemudian.

Beginilah cara API botoi menangani lalu lintas campuran. Permintaan anonim (tanpa kunci API) mendapatkan lonjakan 5 permintaan/mnt dengan batas 100 permintaan/hari, dilacak berdasarkan IP. Permintaan yang diautentikasi pada paket berbayar menggunakan keranjang token Unkey di tepi dengan batas burst dan berkelanjutan yang lebih tinggi per tingkat.

Pola 4: mencatat konteks penggunaan alat dengan header korelasi

Permintaan untuk /v1/dns/lookup secara terpisah tidak memberi tahu Anda apa pun tentang niat. Permintaan yang sama seperti langkah 1 dari audit keamanan 8 langkah memberi tahu Anda segalanya. Header korelasi menjembatani kesenjangan ini.

Dua header membawa semua konteks yang Anda butuhkan:

X-Agent-Run-ID: UUID yang mengelompokkan semua permintaan dalam satu alur kerja
X-Agent-Tool-Index: posisi panggilan ini dalam rantai alat (1, 2, 3...)

Di sisi klien, agen melampirkan kedua header ke setiap permintaan dalam alur kerja:

Di sisi server, Anda mencatat kedua header dengan setiap permintaan. Merekonstruksi apa yang dilakukan agen menjadi satu pertanyaan: "tunjukkan semua permintaan dengan X-Agent-Run-ID = abc-123 dipesan oleh X-Agent-Tool-Index." Tidak ada korelasi stempel waktu, tidak ada pencocokan IP, tidak ada dugaan.

Jika agen Anda menggunakan server MCP botoi, protokol MCP sudah mengelompokkan panggilan alat ke dalam sesi. Itu Server MCP di api.botoi.com/mcp meneruskan kunci API melalui header, dan Anda dapat memperluasnya itu untuk meneruskan ID proses yang tetap ada di 49 alat yang tersedia.

Pola 5: waspada terhadap anomali spesifik agen

Peringatan standar diaktifkan pada tingkat kesalahan HTTP dan persentil latensi. Peringatan khusus agen menyala pola perilaku yang menunjukkan ada yang salah dengan agen itu sendiri, bukan API Anda.

Tiga jenis peringatan menangkap kegagalan agen yang paling umum:

Urutan alat yang tidak terduga: agen memanggil pemeriksaan SSL sebelum pencarian DNS, menunjukkan bug logika dalam langkah perencanaan agen
Perulangan percobaan ulang terdeteksi: titik akhir yang sama terkena 5 kali atau lebih dalam 10 detik dari satu agen yang dijalankan, yang menunjukkan bahwa agen tidak membaca respons kesalahan
Lonjakan biaya: agen yang dijalankan melebihi 50 panggilan API, yang berarti putaran atau halusinasi mendorong konsumsi yang tidak terkendali

Peringatan perulangan coba lagi adalah sinyal dengan nilai tertinggi. Agen yang mendapat kesalahan 400 (input buruk) dan mencoba ulang permintaan yang sama sebanyak 20 kali akan melampaui batas kecepatan dan tidak menghasilkan keluaran yang berguna. Menangkap ini dalam hitungan detik, bukan menit, menghemat anggaran infrastruktur Anda dan operator agen Kuota API.

Menyatukannya: tumpukan observabilitas untuk lalu lintas campuran

Berikut adalah tumpukan yang mencakup kelima pola:

Lapisan	Alat	Apa yang disediakannya
Deteksi agen	Middleware khusus (Pola 1)	Tandai setiap permintaan sebagai agen atau manusia
Penelusuran terdistribusi	OpenTelemetry + Jaeger atau Grafana Tempo	Menghubungkan rantai multi-alat menjadi satu jejak
Pembatasan tarif	Ember token (Pola 3)	Batas ramah-burst per jenis penelepon
Telemetri agen	Langfuse, Arize Phoenix, atau Helicone	Penggunaan token, rantai alat, jalur keputusan agen
Memperingatkan	Aturan khusus pada data pelacakan (Pola 5)	Menangkap perulangan percobaan ulang, urutan tak terduga, lonjakan biaya

Jika Anda sudah menjalankan Datadog atau Grafana untuk API Anda, Anda tidak perlu menggantinya. Tambahkan Lapisan instrumentasi OTEL di atas, jejak yang diberi tag agen pipa ke dasbor khusus, dan buat aturan peringatan pada atribut khusus agen. Metrik per titik akhir yang ada tetap ada berguna untuk pemantauan infrastruktur. Jejak sadar agen baru menjawab pertanyaan Anda teknisi panggilan bertanya pada pukul 3 pagi: "apa yang dilakukan agen ini, mengapa ia mencoba ulang, dan apakah saya harus melakukannya memblokirnya?"

Poin-poin penting

Deteksi dulu, amati kedua. Tandai setiap permintaan sebagai penggunaan agen atau manusia Pola Agen-Pengguna, deteksi irama, dan header eksplisit. Semuanya di hilir tergantung pada klasifikasi ini.
Lacak alur kerja, bukan titik akhir. Unit kerja agen adalah multi-alat rantai, bukan satu panggilan API. Rentang induk/anak OpenTelemetry membuat alur kerja agen objek kelas satu di backend penelusuran Anda.
Ember token di atas jendela tetap. Agen meledak. Ember token mengakomodasi semburan sambil menegakkan batasan yang berkelanjutan. Sesuaikan kapasitas bucket dengan rantai alat yang paling lama Anda perkirakan.
Header korelasi murah dan kuat. X-Agent-Run-ID Dan X-Agent-Tool-Index mengubah log permintaan buram menjadi alur kerja agen yang dapat dibaca dengan satu permintaan basis data.
Waspadai perilaku, bukan volume. Coba lagi loop, pemesanan alat yang tidak terduga, dan jumlah panggilan yang tidak terkendali menangkap masalah nyata sebelum menjadi insiden.

API Botoi menangani lalu lintas manusia dan agen di 150+ titik akhir dan server MCP dengan 49 alat. Setiap respons mencakup X-RateLimit header. Jika Anda sedang membangun agen yang menelepon API eksternal, berikan X-Agent-Run-ID header, patuhi header batas kecepatan, dan berikan sinyal yang dibutuhkan penyedia API Anda agar agen Anda tetap berjalan lancar. Coba dokumen API interaktif atau sambungkan asisten AI Anda melalui server MCP untuk melihat pola-pola ini dalam praktiknya.

FAQ

Bagaimana cara mengetahui apakah agen AI memanggil API saya?: Carilah tiga sinyal: string Agen-Pengguna yang berisi nama kerangka agen (langchain, crewai, autogen), pola permintaan bursty di mana 5 hingga 15 titik akhir dipanggil secara berurutan dengan jeda sub-detik, dan header korelasi seperti X-Session-ID atau X-Agent-Run-ID. Anda juga dapat memeriksa urutan penggunaan alat di mana pencarian DNS, SSL, dan header terjadi dalam urutan yang dapat diprediksi dalam hitungan detik.
Mengapa APM tradisional melewatkan lalu lintas agen AI?: Alat APM tradisional mengumpulkan metrik per titik akhir. Pola lalu lintas agen menjangkau beberapa titik akhir dalam satu operasi logis. Agen audit keamanan memanggil pencarian DNS, lalu pemeriksaan SSL, lalu analisis header dalam 2 detik tampak seperti tiga permintaan yang tidak terkait di Datadog atau New Relic. Anda memerlukan pelacakan terdistribusi dengan ID korelasi bersama untuk menghubungkan panggilan tersebut ke dalam satu alur kerja agen.
Apa algoritma pembatas tarif terbaik untuk lalu lintas agen AI?: Bucket token berfungsi paling baik untuk beban kerja agen. Agen mengirimkan 5 hingga 15 permintaan dalam hitungan detik, lalu menganggur. Token bucket memungkinkan semburan terkontrol hingga batas kapasitas sambil menerapkan tingkat pengisian ulang yang berkelanjutan. Memperbaiki jeda pembatasan laju jendela karena agen dapat menghabiskan batas jendela penuh dalam 2 detik dan kemudian diam selama 58 detik.
Bagaimana cara melacak alur kerja agen AI multi-langkah di seluruh panggilan API?: Minta agen mengirimkan header X-Agent-Run-ID dengan setiap permintaan dalam alur kerja. Di sisi server, buat rentang induk OpenTelemetry untuk setiap ID eksekusi unik dan buat rentang titik akhir individual di bawahnya. Ini memberi Anda tampilan pelacakan tunggal yang menunjukkan pencarian DNS memerlukan waktu 45 md, pemeriksaan SSL memerlukan waktu 120 md, dan header memerlukan waktu 30 md, semuanya dalam satu alur kerja agen.
Haruskah saya menetapkan batasan tarif yang berbeda untuk agen AI versus pengguna manusia?: Ya. Pengguna manusia membuat 1 hingga 3 permintaan per menit dengan jeda panjang di antaranya. Agen membuat 5 hingga 15 permintaan dalam waktu 2 detik, lalu tidak melakukan apa pun selama beberapa menit. Jendela tetap per menit menghukum agen secara tidak adil. Gunakan keranjang token dengan kapasitas burst yang lebih tinggi (misalnya, 20 permintaan) dan laju berkelanjutan yang lebih rendah (misalnya, 5 token per detik) sehingga agen dapat menyelesaikan alur kerja tanpa mencapai kesalahan 429.

Mulai membangun dengan botoi

150+ endpoint API untuk pencarian, pemrosesan teks, pembuatan gambar, dan utilitas developer. Paket gratis, tanpa kartu kredit.

Lihat dokumentasi API Lihat semua alat