مختبر الذكاء الاصطناعي في ستانفورد يصدر إطار التحقق العام LLM-as-a-Verifier، ويحقق أفضل أداء في معيارين قياسيين

robot
إنشاء الملخص قيد التقدم

أخبار ME، في 10 أبريل (بتوقيت UTC+8)، أصدرت مختبر الذكاء الاصطناعي بجامعة ستانفورد (StanfordAILab) مؤخرًا إطارًا عامًا للتحقق يُسمى “LLM-as-a-Verifier”. من خلال توسيع دقة التقييم، والتحقق المتكرر، وتحليل المعايير، حقق هذا الإطار دقة بنسبة 86.4٪ في اختبار المعيار Terminal-Bench 2، و77.8٪ في اختبار المعيار SWE-Bench Verified، مما يعكس أعلى مستوى حالي (SOTA). توفر المقالة روابط للمدونة والكود ذات الصلة. (المصدر: InFoQ)

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$2.34Kعدد الحائزين:4
    0.50%
  • القيمة السوقية:$2.25Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.95Kعدد الحائزين:2
    5.29%
  • القيمة السوقية:$0.1عدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.25Kعدد الحائزين:1
    0.00%
  • تثبيت