اقترحت ستانفورد وبركلي مفهوم LLM-as-a-Verifier، مع تحديث قائمة أفضل الأداء في Terminal-Bench وSWE-Bench

robot
إنشاء الملخص قيد التقدم

أخبار ME News، 14 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة 1M AI News، عند معالجة وكيل البرمجة الذكية لمهمة واحدة، فإن تشغيله عدة مرات غالبًا ما يؤدي إلى حلول مختلفة، وقد تحتوي على أخطاء. إذا أمكن اختيار الأفضل تلقائيًا، فسيزيد معدل النجاح الإجمالي ليصبح أعلى من تشغيل واحد فقط. المشكلة هي كيفية الاختيار: أن يجعل نموذج آخر يُقيم ويُعطي درجات (أي LLM-as-a-Judge) هو النهج السائد حاليًا، لكن دقة التقييم تكون عامة جدًا، وغالبًا ما يُعطي حلولًا مختلفة نفس الدرجة، مما يصعب التمييز بين الأفضل والأقل. اقترحت مختبرات ستانفورد للذكاء الاصطناعي ومختبر سكاي كومبيوتينج بجامعة بيركلي بالتعاون مع شركة نيفيديا نظام LLM-as-a-Verifier، الذي يُحسن عملية الاختيار. لم يعد يعتمد فقط على الدرجة النهائية التي يمنحها الحكم، بل يقرأ توزيع الاحتمالات لكل مستوى تقييم، ويحسب منها قيمة مكافأة مستمرة. كما يُكرر الحكم عدة مرات ويأخذ المتوسط لإزالة الانحياز العشوائي، ويقسم التقييم الكلي إلى ثلاثة أبعاد مستقلة (هل يلبي متطلبات المهمة، هل تنسيق الإخراج صحيح، هل هناك إشارات خطأ) للتحقق منها بشكل منفصل. في التجارب، استخدموا Gemini 2.5 Flash كمُحقق، وكانت دقة التحقق مرة واحدة 74.7%، بينما الحكم التقليدي كان 57.0%. بعد تكرار التحقق 16 مرة، وصل Verifier إلى 77.4%، وJudge إلى 70.2%. كان لدى الحكم التقليدي نسبة 26.5% من حالات التعادل، بينما Verifier لم يسجل أي حالات تعادل في جميع الإعدادات. النتائج الفعلية: على Terminal-Bench 2، عند تشغيل GPT-5.4 خمس مرات لنفس المهمة، كانت نسبة النجاح عشوائيًا 81.8%، بعد الاختيار باستخدام Verifier ارتفعت إلى 86.4%. وعلى منصة SWE-Bench Verified، من خلال اختيار حل واحد من Claude Opus 4.5، وClaude Opus 4.6، وGemini 3 Flash (مجموع 3 حلول)، ارتفعت نسبة النجاح من 76.1% إلى 77.8%. حتى تاريخ إصدار 9 أبريل، كانت كلا النتيجتين في المركز الأول. الإطار مفتوح المصدر. (المصدر: BlockBeats)

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت