Grok 4.20 Beta حققت دقة بنسبة 97% في تقييم τ²-Bench، وحصلت على المركز الثاني

أخبار ME، 5 أبريل (بتوقيت UTC+8)، مؤخرًا، حققت نسخة Grok 4.20 Beta في تقييم τ²-Bench دقة بنسبة 97%، مما جعلها في المركز الثاني. τ²-Bench هو تقييم مبني على إطار Sierra الأصلي τ-bench، ويشتهر بصرامته. هذا التقييم لا يختبر فقط قدرة الذكاء الاصطناعي على الإجابة على الأسئلة، بل يختبر أيضًا قدرة الوكيل الذكي على إكمال مهام التنقل بنجاح. (المصدر: InFoQ)

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$2.39Kعدد الحائزين:2
    0.83%
  • القيمة السوقية:$0.1عدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.25Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.26Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.25Kعدد الحائزين:1
    0.00%
  • تثبيت