Opus 4.7 بتفكير منخفض يتجاوز الحد الأقصى لـ Sonnet 4.6، وتصدر Anthropic أول دليل لضبط التحكم في العوامل الذكية.

robot
إنشاء الملخص قيد التقدم
رسالة AIMPACT، 20 مايو (UTC+8)، وفقًا لرصد Beating، أصدرت Anthropic أول دليل تطوير رسمي لها، وكشفت بالتفصيل عن حدود الدقة ونسب عمق التفكير وآليات تقليل تكلفة التخزين المؤقت لـ Claude 4.6 و Opus 4.7 في سيناريوهات التحكم بالكمبيوتر والمتصفح.
تحدد دقة الشاشة بشكل مباشر دقة نقرات الوكيل. أقصى طول للجانب في لقطات الشاشة التي يحللها Claude 4.6 هو 1568 بكسل، بينما Opus 4.7 هو 2576 بكسل. بمجرد أن تتجاوز اللقطة الحد، يقوم خادم API تلقائيًا بتقليل الصورة بنسبة متساوية، مما يتسبب في انزلاق إحداثيات النقر التي يولدها النموذج عن الصورة الأصلية للعميل. لذلك، يجب على المطورين تقليل حجم اللقطة مسبقًا على العميل إلى 1280x720 (موصى به لـ Claude 4.6) أو 1080p (موصى به لـ Opus 4.7).
يعتمد التحكم في الواجهة بشكل أساسي على الإدراك البصري وتحديد موقع العناصر، ولا يتطلب منطقًا طويل السلسلة. أظهرت الاختبارات أن أداء التحكم لـ Opus 4.7 عند عمق تفكير منخفض (low) يمكن أن يعادل أقصى عمق تفكير (max) لـ Sonnet 4.6، مع تكلفة رمزية تبلغ عُشر تكلفة الأخير. توصي الجهة الرسمية بتعيين خيار التفكير على high، مقارنة بعمق max، لا يتم تخفيض استهلاك الرموز إلى النصف فحسب، بل أيضًا نسبة النجاح متساوية تمامًا، ويجب تجنب تفعيل max لمنع النموذج من التفكير الزائد مما يؤدي إلى مضاعفة الفاتورة.
نظرًا لأن لقطة شاشة واحدة تستهلك ما يصل إلى 1800 رمز في السياق، قدمت الجهة الرسمية خطة من ثلاث طبقات لتقليل التكلفة: الاحتفاظ بنقطة توقف مؤقت واحدة على مستوى النظام في ذاكرة التخزين المؤقت، وتخصيص 3 نقاط توقف أخرى ديناميكيًا لنتائج تنفيذ الأدوات في الجولات الأخيرة؛ إجراء تقليم متداول على العميل، والاحتفاظ فقط بآخر 3 لقطات شاشة في السياق، واستبدال الباقي ببدائل؛ تشغيل ضغط الملخص عند اقتراب عمق السياق من 90%.
بالإضافة إلى ذلك، قدم API أداة دُفعات computer_batch، التي تدعم حزمة عمليات متعددة بدون اعتماد بصري في استدعاء واحد؛ كما يوفر آلية مستشار الوكيل (Advisor Tool)، التي تسمح للنموذج الرئيسي باستدعاء نموذج Opus عالي المستوى مباشرة في الخلفية لتدقيق خطوات التنفيذ. يمكن للمطورين أيضًا استخدام وضع التدريب بالتسجيل (Teach Mode، أي تسجيل مسار التشغيل الحقيقي للمستخدم واستخدامه كمرجع تعليمي أثناء التشغيل) لزيادة معدل نجاح المهام بشكل كبير.
(المصدر: BlockBeats)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت