Opus 4.7 منخفض التفكير يتغلب على الحد الأقصى لـ Sonnet 4.6، وتنشر Anthropic أول دليل لضبط تحكم الوكلاء

robot
إنشاء الملخص قيد التقدم
رسالة AIMPACT، 20 مايو (UTC+8)، وفقًا لرصد Dongcha Beating، أصدرت Anthropic أول دليل تطوير رسمي، وكشفت بالتفصيل عن حدود الدقة ونسبة عمق التفكير وآلية خفض التكلفة عبر التخزين المؤقت لـ Claude 4.6 و Opus 4.7 في سيناريوهات التحكم بالكمبيوتر والمتصفح.
دقة الشاشة تحدد بشكل مباشر دقة نقرات الوكيل. الحد الأعلى للجانب الطويل من لقطة الشاشة التي يحللها Claude 4.6 هو 1568 بكسل، و Opus 4.7 هو 2576 بكسل. بمجرد تجاوز اللقطة للحد، يقوم خادم API تلقائيًا بتصغير الصورة بنسبة متساوية، مما يتسبب في انحراف إحداثيات النقر التي يولدها النموذج عن الصورة الأصلية لدى العميل. لذلك، يجب على المطورين تغيير حجم اللقطة مسبقًا على العميل إلى 1280x720 (موصى به لـ Claude 4.6) أو 1080p (موصى به لـ Opus 4.7).
التحكم في الواجهة يعتمد بشكل أساسي على الإدراك البصري وتحديد موقع العناصر، ولا يتطلب استدلالًا منطقيًا طويل السلسلة. أظهرت الاختبارات أن Opus 4.7 في عمق التفكير المنخفض (low) يمكنه مواكبة أداء Sonnet 4.6 في أقصى عمق تفكير (max)، وتكلفة الرمز المميز هي فقط عُشر تكلفة الأخير. توصي الشركة بتعيين خيار التفكير على high، مقارنة بعمق max، لا ينخفض استهلاك الرموز إلى النصف فحسب، بل تظل نسبة النجاح متساوية تمامًا. يجب تجنب تشغيل max لمنع النموذج من التفكير المفرط مما يؤدي إلى مضاعفة الفاتورة.
نظرًا لأن لقطة شاشة واحدة تستهلك ما يصل إلى 1800 رمز مميز في السياق، قدمت الشركة خطة خفض التكلفة ثلاثية المستويات: الاحتفاظ بنقطة توقف تخزين مؤقت واحدة على مستوى النظام، وتخصيص 3 نقاط توقف أخرى ديناميكيًا لنتائج تنفيذ الأدوات في الجولات الأخيرة؛ إجراء تقليم متداول على العميل، مع الاحتفاظ بآخر 3 لقطات فقط في السياق واستبدال الباقي بعناصر نائبة؛ تشغيل ضغط التلخيص عندما يقترب عمق السياق من 90%.
بالإضافة إلى ذلك، قدمت API أداة الدُفعات computer_batch، التي تدعم تنفيذ حزمة من العمليات المتعددة التي لا تعتمد على الرؤية في استدعاء واحد؛ وتوفر آلية المستشار الوكيل (Advisor Tool)، التي تسمح للنموذج الرئيسي باستدعاء نموذج Opus عالي المستوى مباشرة في الخلفية لتدقيق خطوات التنفيذ. يمكن للمطورين أيضًا استخدام وضع التسجيل الإرشادي (Teach Mode، أي تسجيل مسار تشغيل المستخدم الحقيقي واستخدامه كمرجع تعليمي أثناء التشغيل) لزيادة معدل نجاح المهام بشكل كبير.
(المصدر: BlockBeats)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت