Observabilitas API ketika agen AI adalah penelepon terberat Anda
Gartner mengatakan 30% lalu lintas API baru berasal dari LLM. Lima pola observasi untuk mendeteksi pemanggil agen, melacak rantai penggunaan alat, dan menetapkan batas kecepatan yang sesuai dengan beban kerja yang banyak.
Dasbor API Anda menunjukkan lonjakan lalu lintas 4x pada pukul 3 pagi. Tidak ada kampanye pemasaran. Tidak ada peluncuran produk. Tidak Ada Berita Peretas posting. Agen AI menemukan titik akhir Anda melalui server MCP dan mulai menjalankan keamanan multi-langkah audit; Pencarian DNS, pemeriksaan SSL, analisis header, 15 titik akhir dalam semburan 2 detik, setiap 10 menit.
Ini normal sekarang. Gartner memproyeksikan bahwa 30% atau lebih pertumbuhan permintaan API akan berasal dari agen yang didukung oleh LLM 2026. Survei dari Cisco menemukan bahwa 89% organisasi sudah memantau perilaku agen dalam produksi. Itu lalu lintas di sini. Pertanyaannya adalah apakah tumpukan observasi Anda dapat membedakan antara manusia pengembang menguji titik akhir dan agen menjalankan alur kerja 12 langkah pada pukul 3 pagi.
Alat APM tradisional mengumpulkan metrik per titik akhir. Mereka menunjukkan hal itu kepada Anda /v1/dns/lookup mendapat 500
permintaan dalam satu jam terakhir, tetapi mereka tidak akan memberi tahu Anda bahwa 480 di antaranya berasal dari 40 agen yang berjalan, masing-masing menelepon
Pencarian DNS, pemeriksaan SSL, dan analisis header dalam urutan yang dapat diprediksi. Titik buta itu merugikan Anda; kamu tidak bisa
menetapkan batas tarif yang sesuai, Anda tidak dapat men-debug kegagalan agen, dan Anda tidak dapat memperkirakan biaya infrastruktur.
Lima pola memperbaikinya. Masing-masing mengatasi kesenjangan tertentu antara apa yang disediakan APM standar dan apa yang Anda berikan butuhkan ketika agen adalah penelepon terberat Anda.
Mengapa APM tradisional melewatkan lalu lintas agen
Pengembang manusia memanggil satu titik akhir, membaca responsnya, dan mungkin memanggil titik akhir lainnya beberapa menit kemudian. Agen AI memanggil 5 hingga 15 titik akhir secara berurutan, menguraikan setiap respons secara terprogram, mencoba ulang jika gagal, dan berpindah ke alur kerja berikutnya. Kedua bentuk lalu lintas ini terlihat identik pada setiap titik akhir tingkat tetapi berperilaku berbeda dalam segala hal yang penting bagi operasi.
| Dimensi | Lalu lintas manusia | Lalu lintas agen |
|---|---|---|
| Minta irama | 1-3 permintaan per menit, jeda panjang | 5-15 permintaan dalam 2 detik, lalu menganggur |
| Keberagaman titik akhir | 1-2 titik akhir per sesi | 5-12 titik akhir per alur kerja |
| Coba lagi perilaku | Coba lagi secara manual setelah kesalahan membaca | Coba lagi segera, kemunduran eksponensial jika diberi kode |
| Waktu hari ini | Jam kerja, selaras dengan zona waktu | 24/7, sering kali cron dipicu pada jam-jam ganjil |
| Penanganan kesalahan | Membaca pesan kesalahan, menyesuaikan permintaan | Coba lagi permintaan yang sama atau lewati ke alat berikutnya |
| Durasi sesi | Menit ke jam | 2-30 detik per alur kerja |
Datadog, New Relic, dan Grafana menunjukkan persentil latensi per titik akhir dan tingkat kesalahan. Mereka tidak melakukannya menunjukkan kepada Anda "agen menjalankan #a3f7 memanggil 8 alat secara berurutan, gagal pada alat 6, mencoba lagi 4 kali, dan terbakar melalui 35 panggilan API untuk menyelesaikan tugas yang seharusnya memakan waktu 8." Anda memerlukan penelusuran yang dibuat khusus untuk itu.
Platform seperti Langfus, Arize Phoenix, Kepercayaan otak, Dan helikopter berspesialisasi dalam observasi agen. Mereka melacak rantai penggunaan alat, token konsumsi, dan jalur keputusan agen. OpenTelemetry (OTEL) menyatu sebagai telemetri standar format yang menghubungkan platform ini ke infrastruktur Anda yang ada.
Pola 1: mendeteksi penelepon agen
Sebelum Anda dapat mengamati lalu lintas agen, Anda perlu mengidentifikasinya. Tiga sinyal bekerja sama: String Agen-Pengguna, irama permintaan, dan header eksplisit.
Pencocokan Agen-Pengguna
Kerangka kerja agen menetapkan string Agen-Pengguna yang dapat diidentifikasi. LangChain, CrewAI, AutoGen, dan SDK Antropis
semuanya menyertakan nama kerangka kerja di header defaultnya. Permintaan yang dihasilkan SDK dari perpustakaan seperti
axios, node-fetch, Dan python-requests juga menandakan non-browser
lalu lintas.
Minta deteksi irama
Manusia tidak memanggil 4 titik akhir berbeda dalam waktu 5 detik. Detektor irama sisi server menandai klien yang mencapai beberapa titik akhir unik dalam waktu singkat:
Middleware deteksi penuh
Gabungkan kedua sinyal ke dalam middleware yang menandai setiap permintaan sebagai agen atau manusia. Tag ini mengalir ke lapisan logging, metrik, dan pembatas tarif Anda:
Itu X-Agent-Detected header respons memungkinkan pengembang agen mengonfirmasi permintaan mereka
diklasifikasikan dengan benar. Tingkat kepercayaan dimasukkan ke dalam aturan peringatan Anda; kepercayaan diri yang “tinggi”.
deteksi (header eksplisit) bersifat pasti, sedangkan "medium" (kecocokan UA) mungkin memerlukan konfirmasi irama.
Pola 2: lacak rantai multi-alat dengan OpenTelemetry
Agen yang memanggil server MCP botoi untuk mengaudit domain akan terkena /v1/dns/lookup, Kemudian
/v1/ssl-cert/certificate, Kemudian /v1/headers dalam hitungan detik. Dalam standar
APM, ini adalah tiga permintaan terpisah dan tidak terkait. Dengan berbagi X-Agent-Run-ID tajuk
dan rentang OpenTelemetry, keduanya menjadi satu alur kerja yang dapat dilacak.
Setiap alur kerja agen mendapatkan rentang induk. Setiap pemanggilan alat menjadi rentang anak yang bersarang di bawahnya. Di Jaeger, Grafana Tempo, atau backend apa pun yang kompatibel dengan OTEL, Anda akan melihat rantai lengkapnya: Pencarian DNS memerlukan waktu 45 md, Pemeriksaan SSL memerlukan waktu 120 md, header memerlukan waktu 30 md, total waktu alur kerja 210 md. Ketika alat 6 dari 8 gagal dan agen mencobanya lagi 4 kali, Anda melihatnya di jejak alih-alih menelusuri log titik akhir yang terpisah.
Itu agent.tool_index atribut pada setiap rentang memungkinkan Anda merekonstruksi urutan yang tepat
operasi. Ini penting saat melakukan debug: "mengapa agen memanggil pemeriksaan SSL sebelum pencarian DNS?"
menjadi jejak yang dapat dilihat sekilas, bukan latihan korelasi log.
Pola 3: batas kecepatan untuk beban kerja yang meledak-ledak
Pembatas tingkat jendela tetap menghukum agen. Seorang agen mengirimkan 15 permintaan dalam 2 detik untuk menyelesaikan a alur kerja, lalu diam selama 58 detik. Jendela tetap "60 permintaan per menit" sudah banyak ruangan, tetapi jendela tetap "5 permintaan per 5 detik" memblokir agen berdasarkan permintaan 6, bahkan meskipun tingkat berkelanjutannya masih berada di bawah batas.
Ember token memecahkan masalah ini. Kapasitas bucket mengontrol ukuran burst (berapa banyak permintaan yang dapat dilakukan agen api dalam satu ledakan), dan laju isi ulang mengontrol keluaran yang berkelanjutan (seberapa cepat ember pulih). Dua parameter yang memetakan cara kerja agen.
Wawasan utamanya: agen memerlukan kapasitas ledakan yang lebih tinggi dan laju berkelanjutan yang sebanding. Pengguna manusia dengan ember 5 token dan kecepatan isi ulang 0,5 token/detik dapat membuat 5 permintaan cepat dan kemudian satu permintaan setiap 2 detik. Agen dengan keranjang 20 token dan isi ulang 2 token/detik dapat menjalankan alur kerja 15 titik akhir dalam satu ledakan dan isi ulang ember untuk putaran berikutnya 10 detik kemudian.
Beginilah cara API botoi menangani lalu lintas campuran. Permintaan anonim (tanpa kunci API) mendapatkan lonjakan 5 permintaan/mnt dengan batas 100 permintaan/hari, dilacak berdasarkan IP. Permintaan yang diautentikasi pada paket berbayar menggunakan keranjang token Unkey di tepi dengan batas burst dan berkelanjutan yang lebih tinggi per tingkat.
Pola 4: mencatat konteks penggunaan alat dengan header korelasi
Permintaan untuk /v1/dns/lookup secara terpisah tidak memberi tahu Anda apa pun tentang niat. Permintaan yang sama seperti
langkah 1 dari audit keamanan 8 langkah memberi tahu Anda segalanya. Header korelasi menjembatani kesenjangan ini.
Dua header membawa semua konteks yang Anda butuhkan:
X-Agent-Run-ID: UUID yang mengelompokkan semua permintaan dalam satu alur kerjaX-Agent-Tool-Index: posisi panggilan ini dalam rantai alat (1, 2, 3...)
Di sisi klien, agen melampirkan kedua header ke setiap permintaan dalam alur kerja:
Di sisi server, Anda mencatat kedua header dengan setiap permintaan. Merekonstruksi apa yang dilakukan agen menjadi
satu pertanyaan: "tunjukkan semua permintaan dengan X-Agent-Run-ID = abc-123 dipesan oleh
X-Agent-Tool-Index." Tidak ada korelasi stempel waktu, tidak ada pencocokan IP, tidak ada dugaan.
Jika agen Anda menggunakan server MCP botoi, protokol MCP sudah mengelompokkan panggilan alat ke dalam sesi. Itu
Server MCP di api.botoi.com/mcp meneruskan kunci API melalui header, dan Anda dapat memperluasnya
itu untuk meneruskan ID proses yang tetap ada di 49 alat yang tersedia.
Pola 5: waspada terhadap anomali spesifik agen
Peringatan standar diaktifkan pada tingkat kesalahan HTTP dan persentil latensi. Peringatan khusus agen menyala pola perilaku yang menunjukkan ada yang salah dengan agen itu sendiri, bukan API Anda.
Tiga jenis peringatan menangkap kegagalan agen yang paling umum:
- Urutan alat yang tidak terduga: agen memanggil pemeriksaan SSL sebelum pencarian DNS, menunjukkan bug logika dalam langkah perencanaan agen
- Perulangan percobaan ulang terdeteksi: titik akhir yang sama terkena 5 kali atau lebih dalam 10 detik dari satu agen yang dijalankan, yang menunjukkan bahwa agen tidak membaca respons kesalahan
- Lonjakan biaya: agen yang dijalankan melebihi 50 panggilan API, yang berarti putaran atau halusinasi mendorong konsumsi yang tidak terkendali
Peringatan perulangan coba lagi adalah sinyal dengan nilai tertinggi. Agen yang mendapat kesalahan 400 (input buruk) dan mencoba ulang permintaan yang sama sebanyak 20 kali akan melampaui batas kecepatan dan tidak menghasilkan keluaran yang berguna. Menangkap ini dalam hitungan detik, bukan menit, menghemat anggaran infrastruktur Anda dan operator agen Kuota API.
Menyatukannya: tumpukan observabilitas untuk lalu lintas campuran
Berikut adalah tumpukan yang mencakup kelima pola:
| Lapisan | Alat | Apa yang disediakannya |
|---|---|---|
| Deteksi agen | Middleware khusus (Pola 1) | Tandai setiap permintaan sebagai agen atau manusia |
| Penelusuran terdistribusi | OpenTelemetry + Jaeger atau Grafana Tempo | Menghubungkan rantai multi-alat menjadi satu jejak |
| Pembatasan tarif | Ember token (Pola 3) | Batas ramah-burst per jenis penelepon |
| Telemetri agen | Langfuse, Arize Phoenix, atau Helicone | Penggunaan token, rantai alat, jalur keputusan agen |
| Memperingatkan | Aturan khusus pada data pelacakan (Pola 5) | Menangkap perulangan percobaan ulang, urutan tak terduga, lonjakan biaya |
Jika Anda sudah menjalankan Datadog atau Grafana untuk API Anda, Anda tidak perlu menggantinya. Tambahkan Lapisan instrumentasi OTEL di atas, jejak yang diberi tag agen pipa ke dasbor khusus, dan buat aturan peringatan pada atribut khusus agen. Metrik per titik akhir yang ada tetap ada berguna untuk pemantauan infrastruktur. Jejak sadar agen baru menjawab pertanyaan Anda teknisi panggilan bertanya pada pukul 3 pagi: "apa yang dilakukan agen ini, mengapa ia mencoba ulang, dan apakah saya harus melakukannya memblokirnya?"
Poin-poin penting
- Deteksi dulu, amati kedua. Tandai setiap permintaan sebagai penggunaan agen atau manusia Pola Agen-Pengguna, deteksi irama, dan header eksplisit. Semuanya di hilir tergantung pada klasifikasi ini.
- Lacak alur kerja, bukan titik akhir. Unit kerja agen adalah multi-alat rantai, bukan satu panggilan API. Rentang induk/anak OpenTelemetry membuat alur kerja agen objek kelas satu di backend penelusuran Anda.
- Ember token di atas jendela tetap. Agen meledak. Ember token mengakomodasi semburan sambil menegakkan batasan yang berkelanjutan. Sesuaikan kapasitas bucket dengan rantai alat yang paling lama Anda perkirakan.
-
Header korelasi murah dan kuat.
X-Agent-Run-IDDanX-Agent-Tool-Indexmengubah log permintaan buram menjadi alur kerja agen yang dapat dibaca dengan satu permintaan basis data. - Waspadai perilaku, bukan volume. Coba lagi loop, pemesanan alat yang tidak terduga, dan jumlah panggilan yang tidak terkendali menangkap masalah nyata sebelum menjadi insiden.
API Botoi menangani lalu lintas manusia dan agen di 150+ titik akhir dan server MCP dengan 49 alat.
Setiap respons mencakup X-RateLimit header. Jika Anda sedang membangun agen yang menelepon
API eksternal, berikan X-Agent-Run-ID header, patuhi header batas kecepatan, dan
berikan sinyal yang dibutuhkan penyedia API Anda agar agen Anda tetap berjalan lancar. Coba
dokumen API interaktif
atau sambungkan asisten AI Anda melalui
server MCP untuk melihat
pola-pola ini dalam praktiknya.
FAQ
- Bagaimana cara mengetahui apakah agen AI memanggil API saya?
- Carilah tiga sinyal: string Agen-Pengguna yang berisi nama kerangka agen (langchain, crewai, autogen), pola permintaan bursty di mana 5 hingga 15 titik akhir dipanggil secara berurutan dengan jeda sub-detik, dan header korelasi seperti X-Session-ID atau X-Agent-Run-ID. Anda juga dapat memeriksa urutan penggunaan alat di mana pencarian DNS, SSL, dan header terjadi dalam urutan yang dapat diprediksi dalam hitungan detik.
- Mengapa APM tradisional melewatkan lalu lintas agen AI?
- Alat APM tradisional mengumpulkan metrik per titik akhir. Pola lalu lintas agen menjangkau beberapa titik akhir dalam satu operasi logis. Agen audit keamanan memanggil pencarian DNS, lalu pemeriksaan SSL, lalu analisis header dalam 2 detik tampak seperti tiga permintaan yang tidak terkait di Datadog atau New Relic. Anda memerlukan pelacakan terdistribusi dengan ID korelasi bersama untuk menghubungkan panggilan tersebut ke dalam satu alur kerja agen.
- Apa algoritma pembatas tarif terbaik untuk lalu lintas agen AI?
- Bucket token berfungsi paling baik untuk beban kerja agen. Agen mengirimkan 5 hingga 15 permintaan dalam hitungan detik, lalu menganggur. Token bucket memungkinkan semburan terkontrol hingga batas kapasitas sambil menerapkan tingkat pengisian ulang yang berkelanjutan. Memperbaiki jeda pembatasan laju jendela karena agen dapat menghabiskan batas jendela penuh dalam 2 detik dan kemudian diam selama 58 detik.
- Bagaimana cara melacak alur kerja agen AI multi-langkah di seluruh panggilan API?
- Minta agen mengirimkan header X-Agent-Run-ID dengan setiap permintaan dalam alur kerja. Di sisi server, buat rentang induk OpenTelemetry untuk setiap ID eksekusi unik dan buat rentang titik akhir individual di bawahnya. Ini memberi Anda tampilan pelacakan tunggal yang menunjukkan pencarian DNS memerlukan waktu 45 md, pemeriksaan SSL memerlukan waktu 120 md, dan header memerlukan waktu 30 md, semuanya dalam satu alur kerja agen.
- Haruskah saya menetapkan batasan tarif yang berbeda untuk agen AI versus pengguna manusia?
- Ya. Pengguna manusia membuat 1 hingga 3 permintaan per menit dengan jeda panjang di antaranya. Agen membuat 5 hingga 15 permintaan dalam waktu 2 detik, lalu tidak melakukan apa pun selama beberapa menit. Jendela tetap per menit menghukum agen secara tidak adil. Gunakan keranjang token dengan kapasitas burst yang lebih tinggi (misalnya, 20 permintaan) dan laju berkelanjutan yang lebih rendah (misalnya, 5 token per detik) sehingga agen dapat menyelesaikan alur kerja tanpa mencapai kesalahan 429.
Mulai membangun dengan botoi
150+ endpoint API untuk pencarian, pemrosesan teks, pembuatan gambar, dan utilitas developer. Paket gratis, tanpa kartu kredit.