مختبرات ستانفورد وبركلي بالتعاون مع شركة نفيديا اقترحت نموذج LLM-as-a-Verifier، من خلال تحليل توزيع احتمالات التقييم والتقييمات المتكررة، نجحوا في تحسين دقة اختيار الحلول لوكيل البرمجة الذكي. أظهرت التجارب أن الموثق (Verifier) يتفوق على القاضي التقليدي في التقييم، مع زيادة ملحوظة في معدل النجاح، وأن الإطار مفتوح المصدر بالفعل.

MeNews

2026-05-01 12:27:18

إنشاء الملخص قيد التقدم

أخبار ME News، في 14 أبريل (بتوقيت UTC+8)، وفقًا لمراقبة 1M AI News، عند معالجة وكيل البرمجة الذكية لمهمة واحدة، فإن تشغيله عدة مرات غالبًا ما يؤدي إلى حلول مختلفة، وقد يكون بعضها خاطئًا. إذا أمكن اختيار الأفضل تلقائيًا، فسيزيد معدل النجاح الإجمالي عن تشغيل واحد فقط. المشكلة هي كيفية الاختيار: أن يجعل نموذج آخر يُقيم ويُعطي درجات (أي LLM-as-a-Judge) هو النهج السائد حاليًا، لكن دقة التقييم تكون عامة جدًا، وغالبًا ما يُعطي حلولًا مختلفة نفس الدرجة، مما يصعب التمييز بين الأفضل والأقل. اقترحت مختبرات ستانفورد للذكاء الاصطناعي ومختبر سكاي كومبيوتينج في بيركلي بالتعاون مع شركة نيفيديا نظام LLM-as-a-Verifier، الذي يُحسن عملية الاختيار. لم يعد الأمر يعتمد فقط على الدرجة النهائية التي يمنحها الحكم، بل يتم قراءة توزيع الاحتمالات لكل مستوى تقييم من النموذج، وحساب قيمة مكافأة مستمرة من ذلك. كما يُكرر الحكم عدة مرات ويُأخذ المتوسط لإزالة الانحياز العشوائي، ويتم تقسيم التقييم الكلي إلى ثلاثة أبعاد مستقلة (هل يلبي متطلبات المهمة، هل التنسيق الناتج صحيح، هل هناك إشارات خطأ) للتحقق منها بشكل منفصل. في التجارب، استخدموا Gemini 2.5 Flash كمحقق، وكانت دقة التحقق في مرة واحدة 74.7%، بينما كانت نسبة الحكم التقليدي 57.0%. بعد تكرار التحقق 16 مرة، وصل Verifier إلى 77.4%، مقابل 70.2% للحكم. كان لدى الحكم التقليدي نسبة تعادل 26.5%، بينما كانت نسبة التعادل في Verifier صفرًا في جميع الإعدادات. النتائج الفعلية: على Terminal-Bench 2، عند تشغيل GPT-5.4 خمس مرات لنفس المهمة، كانت نسبة النجاح عند اختيار عشوائي 81.8%، وارتفعت إلى 86.4% بعد الاختيار باستخدام Verifier. على SWE-Bench Verified، من خلال اختيار حل واحد من Claude Opus 4.5، وClaude Opus 4.6، وGemini 3 Flash (مجموع 3 حلول)، زادت نسبة النجاح من 76.1% إلى 77.8%. حتى تاريخ إصدار 9 أبريل، كانت كلا الطريقتين في المركز الأول. الإطار مفتوح المصدر. (المصدر: BlockBeats)

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
WCTCTradingKingPK
443.45K درجة الشعبية
#
USSeeksStrategicBitcoinReserve
58.69M درجة الشعبية
#
IsraelStrikesIranBTCPlunges
37.24K درجة الشعبية
#
BitcoinETFOptionLimitQuadruples
981.54K درجة الشعبية
#
#FedHoldsRateButDividesDeepen
30.62K درجة الشعبية

تثبيت

خريطة الموقع

اقترحت ستانفورد وبركلي مفهوم LLM-as-a-Verifier، مع تحديث قائمة أفضل الأداء في Terminal-Bench وSWE-Bench

المواضيع الرائجة

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

تثبيت