مختبر الذكاء الاصطناعي في ستانفورد يصدر إطار التحقق العام LLM-as-a-Verifier، ويحقق أفضل أداء في معيارين قياسيين

robot
إنشاء الملخص قيد التقدم

رسالة ME News، في 10 أبريل (بتوقيت UTC+8)، أصدر مختبر الذكاء الاصطناعي بجامعة ستانفورد (StanfordAILab) مؤخرًا إطار تحقق عام بعنوان “LLM-as-a-Verifier”. يحقق هذا الإطار دقة بنسبة 86.4% في اختبار المعيار Terminal-Bench 2، ودقة بنسبة 77.8% في اختبار المعيار SWE-Bench Verified، وذلك من خلال توسيع دقة التقييم، والتحقق المتكرر، والتحليل/التجزئة إلى معايير قياسية وغيرها من الطرق، وقد وصل جميعها إلى المستوى الأفضل حاليًا (SOTA). يتضمن النص روابط للمدونة والكود ذوي الصلة. (المصدر: InFoQ)

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$2.3Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$0.1عدد الحائزين:0
    0.00%
  • القيمة السوقية:$2.29Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.3Kعدد الحائزين:0
    0.00%
  • القيمة السوقية:$2.29Kعدد الحائزين:1
    0.00%
  • تثبيت