Grok 4.20 Beta حققت 97% دقة في تقييم τ²-Bench، وتحتل المرتبة الثانية

MeNews · 2026-04-09T19:53:33+00:00

رسالة أخبار ME، 5 أبريل (بتوقيت UTC+8)، في الآونة الأخيرة، حقق إصدار Grok 4.20 Beta معدل دقة بلغ 97% في تقييم τ²-Bench، ليحتل المرتبة الثانية. يُعد τ²-Bench تقييمًا مبنيًا على إطار τ-bench الأصلي من Sierra، ويشتهر بصرامته. لا يختبر هذا التقييم الذكاء الاصطناعي فحسب، بل...

MeNews

2026-04-09 19:53:33

رسالة ME News، في 5 أبريل (بتوقيت UTC+8)، حققت مؤخرًا نسخة Grok 4.20 Beta في تقييم τ²-Bench معدل دقة بلغ 97%، لتحتل بذلك المرتبة الثانية. يعد τ²-Bench تقييمًا مبنيًا على إطار τ-bench الأصلي من Sierra، ويشتهر بصرامته. لا يختبر هذا التقييم فقط ما إذا كان الذكاء الاصطناعي قادرًا على الإجابة عن الأسئلة، بل يختبر أيضًا ما إذا كان الوكيل الذكي يستطيع إكمال مهام التنقل بنجاح. (المصدر: InFoQ)

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

تسجيلات الإعجاب 2