اقترحت ستانفورد وباركلي مفهوم LLM-as-a-Verifier، مع تحديث قائمة أفضل الأداء في Terminal-Bench وSWE-Bench

robot
إنشاء الملخص قيد التقدم

أخبار ME News، 14 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة 1M AI News، عند معالجة وكيل البرمجة بالذكاء الاصطناعي لمهمة واحدة، فإن تشغيله عدة مرات غالبًا ما يؤدي إلى حلول مختلفة، وقد تحتوي على أخطاء. إذا أمكن اختيار الأفضل تلقائيًا، فسيزيد معدل النجاح الإجمالي عن تشغيل واحد. المشكلة هي كيفية الاختيار: أن يجعل نموذج آخر يُقيم ويُعطي درجات (أي LLM-as-a-Judge) هو النهج السائد حاليًا، لكن دقة التقييم تكون عامة جدًا، وغالبًا ما يُعطي حلولًا مختلفة نفس الدرجة، مما يصعب التمييز بين الأفضل والأقل.
اقترحت مختبرات ستانفورد للذكاء الاصطناعي ومختبر سكاي كومبيوتينج بجامعة بيركلي بالتعاون مع شركة نيفيديا نظام LLM-as-a-Verifier، لتحسين عملية الاختيار. لم يعد الأمر يقتصر على النظر إلى الدرجة النهائية التي يمنحها الحكم، بل يتم قراءة توزيع الاحتمالات لكل مستوى تقييم من النموذج، وحساب قيمة مكافأة مستمرة منها. كما يُكرر الحكم عدة مرات ويُأخذ المتوسط لإزالة التحيز العشوائي، ويتم تقسيم التقييم الكلي إلى ثلاثة أبعاد مستقلة (هل يلبي متطلبات المهمة، هل التنسيق الناتج صحيح، هل هناك إشارات خطأ) للتحقق منها بشكل منفصل.
في التجارب، استخدموا Gemini 2.5 Flash كمُحقق، وكانت دقة التحقق في مرة واحدة 74.7%، بينما الحكم التقليدي كان 57.0%. بعد تكرار التحقق 16 مرة، وصل Verifier إلى 77.4%، بينما Judge كان 70.2%.
يوجد 26.5% من حالات الحكم التقليدي التي تنتهي بالتعادل، بينما في Verifier كانت نسبة التعادل 0% في جميع الإعدادات.
النتائج الفعلية: على Terminal-Bench 2، عند تشغيل GPT-5.4 خمس مرات لنفس المهمة، كانت نسبة النجاح عند اختيار عشوائي 81.8%، وترقية الاختيار باستخدام Verifier زادت إلى 86.4%.
على SWE-Bench Verified، من خلال اختيار حل واحد من Claude Opus 4.5، وClaude Opus 4.6، وGemini 3 Flash (مجموع 3 حلول)، زادت نسبة النجاح من 76.1% إلى 77.8%.
حتى تاريخ إصدار 9 أبريل، كانت كلا الطريقتين في المركز الأول.
الإطار مفتوح المصدر.
(المصدر: BlockBeats)

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت