اقترحت ستانفورد وبركلي مفهوم LLM-as-a-Verifier، مع تحديث قائمة أفضل الأداء في Terminal-Bench وSWE-Bench

robot
إنشاء الملخص قيد التقدم

أخبار ME News، في 14 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة 1M AI News، عند معالجة وكيل البرمجة الذكية لمهمة واحدة، غالبًا ما تؤدي عمليات التشغيل المتعددة إلى الحصول على حلول مختلفة، وقد تحتوي على أخطاء. إذا أمكن اختيار الأفضل تلقائيًا، فإن معدل النجاح الإجمالي يمكن أن يتجاوز تشغيل مرة واحدة. المشكلة هي كيفية الاختيار: أن يجعل نموذج آخر يحكم ويقيم (أي LLM-as-a-Judge) هو النهج السائد حاليًا، لكن دقة التقييم تكون عامة جدًا، وغالبًا ما يمنح حلولًا مختلفة نفس الدرجة، مما يصعب التمييز بين الأفضل والأقل.
اقترحت مختبرات ستانفورد للذكاء الاصطناعي ومختبر سكاي كومبيوتينج في بيركلي بالتعاون مع شركة نيفيديا مفهوم LLM-as-a-Verifier، لتحسين عملية الاختيار. لم يعد الأمر يقتصر على النظر إلى الدرجة النهائية التي يمنحها الحكم، بل يتم قراءة توزيع الاحتمالات على كل مستوى تقييم، وحساب قيمة مكافأة مستمرة منها. كما يتم تكرار تقييم الحكم عدة مرات وأخذ المتوسط لإزالة الانحراف العشوائي، وتقسيم التقييم الكلي إلى ثلاثة أبعاد مستقلة (هل يلبي متطلبات المهمة، هل التنسيق الناتج صحيح، هل هناك إشارات خطأ) للتحقق منها بشكل منفصل.
في التجارب، استخدموا Gemini 2.5 Flash كمحقق، وكانت دقة التحقق في مرة واحدة 74.7%، بينما الحكم التقليدي كان 57.0%. بعد تكرار التحقق 16 مرة، وصل Verifier إلى 77.4%، وJudge إلى 70.2%.
يوجد 26.5% من الحالات التي ينتهي فيها الحكم التقليدي بالتعادل، بينما في جميع الإعدادات، كانت نسبة التعادل لدى Verifier تساوي 0%.
النتائج الفعلية: على منصة Terminal-Bench 2، عند تشغيل GPT-5.4 خمس مرات لنفس المهمة، كانت نسبة النجاح عشوائيًا 81.8%، وارتفعت إلى 86.4% بعد اختيار الحل بواسطة Verifier.
وفي اختبار SWE-Bench Verified، من خلال اختيار حل واحد من Claude Opus 4.5، وClaude Opus 4.6، وGemini 3 Flash (مجموع 3 حلول)، ارتفعت نسبة النجاح من 76.1% إلى 77.8%.
حتى تاريخ إصدار 9 أبريل، كانت كلا النتيجتين في المركز الأول.
الإطار مفتوح المصدر.
(المصدر: BlockBeats)

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت