تخطي إلى المحتوى
Guide

يحرق وكيل الذكاء الاصطناعي الخاص بك 21000 رمزًا لإصلاح خطأ مطبعي: 6 أنماط تكلفة

| 9 min read

استخدمت إحدى جلسات Claude Code الموثقة 21000 رمز إدخال لإصلاح حرف واحد. ستة أنماط تقلل العملات الورقية بنسبة 60 إلى 80%، مع رمز وأرقام حقيقية.

Financial charts and pricing data on a screen representing AI token cost tracking
Photo by Austin Distel on Unsplash

قام أحد المطورين في Morph بتوثيق جلسة Claude Code التي استهلكت أكثر من 21000 رمز إدخال إصلاح الخطأ المطبعي المكون من حرف واحد. وهذا يعادل قراءة رواية قصيرة لتغيير رواية أخرى رسالة. قامت الجلسة بحرق الرموز المميزة لإعادة إرسال سجل المحادثة الكامل في كل منعطف، إعادة محاولة استدعاء أداة فاشلة، وإعادة قراءة نفس الملفات الثلاثة التي قام الوكيل بتحميلها بالفعل مرتين.

لم يكن هناك شيء في تلك الجلسة غير عادي. يقوم وكلاء البرمجة بإعادة إرسال التاريخ عند كل منعطف، واستدعاءات الأداة تتضاعف في منتصف المنعطفات، ومن السهل تفويت نافذة ذاكرة التخزين المؤقت السريعة لمدة 5 دقائق. فريق يمكن أن يؤدي تشغيل Claude Code أو Cursor على نفس عبء العمل إلى إنشاء فاتورة رمزية تختلف بمقدار 10x اعتمادًا على ما إذا كانت هذه الأنماط الستة موجودة أم لا.

ها هم، كل منهم مع تغيير الكود الذي يفتح الادخار ورقم واقعي لما يقطع.

النمط 1: الحد من التكرارات وفرض ميزانية رمزية

أسرع طريقة لحرق الرموز المميزة هي حلقة الوكيل بدون شرط الخروج. الوكيل يصل إلى 400 خطأ، إعادة المحاولة باستخدام نفس الإدخال السيئ، إعادة المحاولة باستخدام إدخال سيئ مختلف قليلاً، إعادة المحاولة مرة أخرى، وهكذا. بحلول التكرار 40، تكون قد أنفقت 80000 رمزًا مميزًا لإنتاج لا شيء.

الإصدار غير المحدود الذي يأتي معه كل برنامج تعليمي:

الإصدار الذي لن يوقظك الساعة 2 صباحًا:

قبعتين واحد على التكرارات، وواحد على إجمالي الرموز. يلتقط غطاء التكرار عواصف إعادة المحاولة. ال تلتقط ميزانية الرمز المميز المهام طويلة الأمد التي لا تزال متقاربة ولكنها تتجاوز نقطة الدولار إحساس. إذا لم يتمكن الوكيل من حل المشكلة خلال 20 استدعاء للأداة، فإن الإصلاح يكون بمطالبة أفضل أو أداة أفضل، وليس المزيد من التكرارات.

سجل stats.iterations جنبا إلى جنب stats.inputTokens في المقاييس الخاصة بك خط أنابيب. المهام التي تكتمل في 3 إلى 5 تكرارات تعتبر صحية. المهام المثبتة من 18 إلى 20 iterations are retry storms that need a prompt rewrite, not a cap increase.

النمط 2: وضع علامة على السياق الثابت الطويل على أنه قابل للتخزين المؤقت

تصل ذاكرة التخزين المؤقت لفواتير ذاكرة التخزين المؤقت من Anthropic إلى 10% من معدل الإدخال وتكتب ذاكرة التخزين المؤقت بنسبة 125%. For دليل نمط مكون من 10000 رمز مميز يمكن إعادة استخدامه في 100 مكالمة خلال 5 دقائق من TTL، التشغيل المخزن مؤقتًا يكلف حوالي 12% من التشغيل غير المخزن مؤقتًا.

إضافة cache_control إلى كتلة المحتوى سطر واحد. فقدانها هو الأكثر شيوعا خطأ التكلفة في رمز وكيل الإنتاج:

ذاكرة التخزين المؤقت تعيش لمدة 5 دقائق. إذا قام وكيلك بإجراء مكالمة واحدة كل 20 دقيقة، فستدفع المبلغ المخبأ اكتب قسطًا دون استهلاكه، والتخزين المؤقت يكلفك المال. إذا قام وكيلك بعمل رشقات نارية من 10 إلى 50 مكالمة في أقل من 5 دقائق، تنقلب الحسابات لصالحك.

رقم ملموس: جلسة مراجعة مكونة من 40 مكالمة مع دليل نمط 8K، بدون ذاكرة تخزين مؤقت، تكلف حوالي 40 * 8000 = 320000 رمز إدخال لدليل النمط وحده. مع التخزين المؤقت: 10000 (اكتب بنسبة 125%) + 39 * 800 (القراءة بنسبة 10%) = 41,200 رمزًا قابلاً للفوترة. وهذا يمثل تخفيضًا بنسبة 87% على الكتلة القابلة لإعادة الاستخدام.

النمط 3: تلخيص ذيل الجلسات الطويلة

عند المنعطف 30 من الجلسة، يعيد الوكيل قراءة المنعطفات من 1 إلى 29 في كل مكالمة. المنعطفات المبكرة تحتوي على سياق الإعداد الذي لم يعد قابلاً للتنفيذ منذ فترة طويلة. ضغطهم.

لخص ذلك مع Haiku، وليس نفس النموذج باهظ الثمن الذي يقود الحلقة الرئيسية. يمكن أن يخسر الملخص التفاصيل؛ احتفظ بما يكفي للحفاظ على مسارات الملفات وأسماء الوظائف والقرارات التي اتخذها الوكيل بالفعل صنع. تظل آخر 6 دورات حرفية، لذا لا يزال النموذج يحتوي على نتائج استدعاء الأداة الحديثة وعمله السياق.

بالنسبة للجلسة التي كانت على وشك الوصول إلى 120 ألف رمز إدخال لكل دورة، يتحول الضغط من 1 إلى 24 في ملخص مكون من 400 رمز مميز، يتم تقليل الإدخال لكل دورة إلى 8 آلاف تقريبًا. مجمع الادخار: في الـ 10 القادمة يتحول، وهذا هو مليون الرموز التي لم ترسلها.

النمط 4: قراءة RAG عبر الملف الكامل للمواد المرجعية

إن إرسال ثلاثة ملفات كاملة في كل دور لأن الوكيل قد يحتاج إليها هو الشكل الأكثر وضوحًا من النفايات. يؤدي البحث في متجر المتجهات إلى إرجاع الأجزاء الخمس الأكثر صلة المكونة من 180 رمزًا إلى القطع المرجعية السياق بنسبة 60 إلى 80% مع الحفاظ على الدقة في الأسئلة المستهدفة.

القاعدة الأساسية: الملفات التي يقل حجمها عن 3K تدخل مباشرةً؛ يتم تقسيم الملفات التي يزيد عددها عن 10 آلاف رمز مميز و تم استرجاعه؛ تعتمد الملفات الموجودة بينهما على ما إذا كان الوكيل سيقوم بفحص كل شيء أو البحث عن ملف وظيفة محددة. بالنسبة لمواصفات واجهة برمجة التطبيقات (API)، ومواقع التوثيق، ومخططات التكوين، فإن RAG يتم بشكل صارم أفضل. بالنسبة للملف الذي يقوم الوكيل بتحريره بشكل نشط، احتفظ به في السطر.

النمط 5: تفريغ العمل الحتمي لاستدعاءات الأداة المكتوبة

الرمز المميز الأغلى هو رمز الإخراج الذي يتم إنفاقه في التفكير من خلال مشكلة ينبغي للنموذج لم يطلب أبدا حلها. تنتمي المهام الحتمية والمنظمة إلى الأداة:

  • بناء جملة البريد الإلكتروني بالإضافة إلى MX بالإضافة إلى التحقق القابل للتصرف
  • تحليل الهاتف إلى E.164 مع اكتشاف البلد
  • انتهاء صلاحية شهادة SSL والتحقق من صحة السلسلة
  • التحقق من صحة مخطط JSON، وتحويل JSON إلى TypeScript
  • التجزئة، إنشاء UUID، ترميز Base64، تحويل الطابع الزمني
  • عمليات فحص نظام التعرف على هوية المرسل (SPF)، وDMARC، وDKIM؛ عمليات البحث عن سجل DNS

يكلف الإصدار السابق ما يقرب من 2400 رمزًا مميزًا لكل مكالمة وأحيانًا يهلوس سجلات MX. بعد يكلف الإصدار حوالي 230 رمزًا مميزًا، ويستدعي نقطة نهاية مكتوبة، ويعيد إجابة تم التحقق من صحة المخطط. ال يحصل الوكيل على نفس المعلومات بنسبة 10% من التكلفة وبدون أخطاء في الاستدلال.

هذا هو المكان الذي تتلاءم فيه واجهة برمجة التطبيقات الخارجية بشكل نظيف مع مكدس الوكيل. استدعاءات الأداة التي تنتهي بـ a يؤدي طلب HTTP واحد إلى نقطة نهاية مكتوبة إلى إزالة تكلفة رمز الإخراج وفئة الهلوسة. يمكن تغليف أي نقطة نهاية لـ Botoi كأداة Claude أو OpenAI في بضعة أسطر، أو يتم استدعاؤها مباشرة من خلال خادم Botoi MCP الذي يعرض 49 منها كأدوات MCP.

النمط 6: التوجيه حسب نوع المهمة إلى أرخص نموذج مقبول

تبلغ تكلفة Opus 5x Sonnet و15x Haiku لكل رمز إدخال. معظم المهام في حلقة الوكيل لا تحتاج إلى Opus. يعمل التصنيف والاستخراج والتوجيه القصير لاستدعاء الأداة وضغط الملخص بشكل جيد هايكو. احتفظ بـ Opus لاتخاذ القرارات المعمارية وتصحيح الأخطاء الصعبة.

وكيل عبء العمل المختلط النموذجي الذي كان يقوم بكل خطوة على Opus انخفض بنسبة 62% من قيمته الشهرية فاتورة عن طريق توجيه مهام "الخطة" فقط إلى Opus ودفع التصنيف/الاستخراج إلى Haiku. الدقة كان الانحدار في تلك المهام صفرًا لأنها كانت حتمية في البداية.

يأخذ نمط أداة Claude Advisor هذا الأمر إلى أبعد من ذلك: تقوم Sonnet بتشغيل الحلقة الرئيسية واستدعاء Opus منتصف الجيل للحصول على رأي ثان بشأن قرار محدد. مكالمة واحدة، نموذجين، بالقرب من أوبوس الجودة بتكلفة السوناتة.

الأداة قبل التحسين

لا يمكنك قطع ما لا يمكنك رؤيته. قم بتسجيل إحصائيات الرمز المميز لكل تشغيل بمجرد شحن الوكيل إليه الإنتاج:

ماسورة runs.jsonl في كل ما تستخدمه بالفعل للمقاييس. الأسبوع الأول من البيانات سيُظهر حفنة من عمليات التشغيل التي تستهلك 3 أضعاف المتوسط. تلك هي حلقات إعادة المحاولة الخاصة بك. الاسبوع القادم سيُظهر المستوى الثاني من عمليات التشغيل الباهظة الثمن التي تم فقدانها في ذاكرة التخزين المؤقت بسبب انقضاء نافذة ذاكرة التخزين المؤقت. قم بإصلاحها بترتيب التكلفة، وليس بترتيب التكرار.

تجميعها معًا: التوفير المتوقع حسب النمط

نمط الادخار النموذجي جهد للشحن
التكرار + الحد الأقصى للرمز المميز 40-90% في الحالات المرضية منخفض (ساعة واحدة)
ذاكرة التخزين المؤقت الفوري في سياق قابل لإعادة الاستخدام 60-90% على الكتلة المخزنة مؤقتًا منخفض (سطر واحد لكل كتلة)
تلخيص الذيل 30-70% على الجلسات الطويلة متوسط ​​(منطق الضغط)
RAG للمواد المرجعية 60-80% على المحتوى المسترد متوسط ​​(إعداد متجر المتجهات)
تفريغ الأداة للعمل الحتمي 70-95% في المهمة التي تم تفريغها منخفض (تعريف الأداة + استدعاء HTTP)
توجيه النموذج حسب نوع المهمة 50-80% مخلوط منخفض (وظيفة جهاز التوجيه)

كومة كل ستة. فريق ينتقل من "كل شيء في Opus، لا توجد ذاكرة تخزين مؤقت، ملفات كاملة، حد أقصى 40 تكرارًا" إلى "توجيه Haiku-Sonnet، مطالبات النظام المخزن مؤقتًا، RAG، الأدوات المكتوبة، الحد الأقصى لـ 20 تكرارًا" يتم قطعها بانتظام الإنفاق الشهري بنسبة 70 إلى 85% بمعدلات إنجاز مهام مماثلة أو أفضل.

الوجبات السريعة الرئيسية

  • الحد الأقصى للتكرارات والرموز، وليس ساعة الحائط. حد أقصى 20 تكرارًا / 150 ألف رمز مميز توقف عن إعادة محاولة العواصف قبل أن تكلفك المال.
  • وضع علامة على السياق القابل لإعادة الاستخدام على أنه قابل للتخزين المؤقت. واحد cache_control يتحول الخط جلسة مكونة من 40 مكالمة بدءًا من 320 ألف رمزًا قابلاً للفوترة إلى 41 ألفًا.
  • لخص الذيل بالهايكو، واحتفظ بالرأس حرفيًا. المنعطفات القديمة تتوقف عن الوجود قابلة للتنفيذ بشكل أسرع مما يلاحظه معظم الوكلاء.
  • استرجاع، لا ترسل، المواد المرجعية. تقوم RAG بتخفيض 60-80% من رموز الإدخال للمستندات والمواصفات والمخططات التي يقوم الوكيل بفحصها بدلاً من تحريرها.
  • أداة استدعاء العمل الحتمي. التحقق من صحة البريد الإلكتروني، وعمليات بحث DNS، والتجزئة، تحويل JSON؛ لا شيء منها يستحق رموز المنطق.
  • التوجيه حسب نوع المهمة. هايكو للتصنيف/الاستخراج، السوناتة للسبب، أوبوس لل خطة. تنخفض الفاتورة المخلوطة بنسبة 50 إلى 80% مع عدم فقدان الدقة في المهام المنظمة.

يمنحك Botoi أكثر من 150 نقطة نهاية مكتوبة وخادم MCP مكون من 49 أداة جاهزة للاتصال بأي حلقة وكيل. إن استبدال الرموز المميزة للاستدلال باستدعاء HTTP يكلف حوالي 230 رمزًا مميزًا لكل مهمة حتمية بدلا من 2000+. جرب مستندات API التفاعلية أو قم بتوصيل Claude Code أو Cursor أو VS Code بـ خادم MCP في واحدة config، ثم شاهد سطر الرمز المميز الخاص بك على لوحة معلومات التكلفة وهو مسطح.

FAQ

لماذا يستخدم وكيل ترميز الذكاء الاصطناعي الكثير من الرموز المميزة مقابل تغيير بسيط؟
يقوم وكلاء الترميز بإعادة إرسال سجل المحادثة الكامل في كل منعطف. جلسة مكونة من 30 دورة تبدأ بثلاث عمليات قراءة كبيرة للملفات، ترسل تلك القراءات في كل دورة، مضروبة في عدد استدعاءات الأداة التي يجريها الوكيل بين الدورات. يمكن أن يتحول إصلاح الخطأ المطبعي الذي يبدو تافهًا للإنسان إلى 20 إلى 30 رحلة ذهابًا وإيابًا، تحمل كل منها ما بين 1000 إلى 1500 رمزًا مميزًا للسياق الذي شاهده النموذج بالفعل. المركبات الحسابية سريعة.
ما المبلغ الذي يوفره التخزين المؤقت السريع في مكالمة إنسانية؟
تتقاضى ذاكرة التخزين المؤقت السريعة الخاصة بـ Anthropic 10% من معدل رمز الإدخال لزيارات ذاكرة التخزين المؤقت و125% لعمليات الكتابة في ذاكرة التخزين المؤقت. بالنسبة لمطالبة النظام المكونة من 10000 رمز مميز والتي يتم إعادة استخدامها في 100 مكالمة خلال مدة TTL البالغة 5 دقائق، فإن التشغيل المخزن مؤقتًا يكلف حوالي 12% من التشغيل غير المخزن مؤقتًا؛ كتابة واحدة بنسبة 125% بالإضافة إلى 99 قراءة بنسبة 10%. كلما كان السياق القابل لإعادة الاستخدام أكبر، كلما زاد التوفير.
ما هو الحد الأقصى للتكرار الذي يجب أن أقوم بتعيينه في حلقة الوكيل؟
ابدأ بـ 15 إلى 25 تكرارًا لمهمة منطقية واحدة. إذا لم يتمكن وكيلك من الوصول إلى إجابة صحيحة خلال 15 استدعاء للأداة، فمن المحتمل ألا يصل إليها خلال 50 مرة؛ من المرجح أن يتم القبض عليه في حلقة إعادة المحاولة أو وسيطات الأداة المهلوسة. قم بإضافة فحص الميزانية الذي يقتل الحلقة عندما تتجاوز الجلسة حد الرمز المميز، وليس حد ساعة الحائط. خرائط إنفاق الرمز المميز لتكلفة الدولار؛ ساعة الحائط لا.
متى يكون من المنطقي استدعاء واجهة برمجة تطبيقات HTTP خارجية من وكيل بدلاً من مطالبة النموذج بحساب الإجابة؟
في أي وقت تكون المهمة حتمية ومنظمة: التحقق من البريد الإلكتروني، وتحليل الهاتف، وفحوصات SSL، وفك تشفير base64، وإنشاء UUID، وحساب التجزئة، والتحقق من صحة مخطط JSON. يجب ألا ينفق النموذج 500 رمز مميز للإخراج لمعرفة ما إذا كان support@acme.com لديه سجل MX صالح. يؤدي استدعاء أداة واحدة إلى نقطة النهاية المكتوبة إلى إرجاع الإجابة في 30 رمزًا وإزالة فئة من الهلوسة.
هل يتغلب RAG دائمًا على دفع الملفات بأكملها في السياق؟
بالنسبة للمواد المرجعية للقراءة في الغالب (المستندات، مخططات التكوين، مواصفات واجهة برمجة التطبيقات)، نعم؛ عادةً ما تقوم الفرق التي تنتقل إلى استرجاع 5K-token RAG بخفض الرموز المميزة للإدخال بنسبة 60 إلى 80% مقابل إرسال الملفات الكاملة. بالنسبة للملفات الصغيرة التي يقل حجمها عن 3K والتي تتلاءم تمامًا مع السياق، يضيف RAG التعقيد دون توفير أي شيء. القاعدة: إذا كان المحتوى ذو الصلة أقل من 3K من الرموز المميزة، فقم بتضمينه؛ إذا كان أكثر من 10 آلاف رمز وكان الوكيل يحتاج فقط إلى شريحة، فاسترجعها.

ابدأ البناء مع botoi

أكثر من 150 نقطة نهاية API للبحث ومعالجة النصوص وتوليد الصور وأدوات المطورين. باقة مجانية، بدون بطاقة ائتمان.