Grok 4.20 Beta حققت دقة بنسبة 97% في تقييم τ²-Bench، وحصلت على المركز الثاني

2026-04-09 17:46:48

خبر ME، 5 أبريل (بتوقيت UTC+8)، مؤخرًا، حققت نسخة بيتا من Grok 4.20 Beta معدل دقة 97% في تقييم τ²-Bench، لتحتل بذلك المرتبة الثانية. τ²-Bench هو تقييم مبني على إطار τ-bench الأصلي من Sierra، ويشتهر بصرامته. لا يختبر هذا التقييم فقط ما إذا كان الذكاء الاصطناعي قادرًا على الإجابة عن الأسئلة، بل يختبر أيضًا ما إذا كان الوكيل الذكي قادرًا على إكمال مهام التنقل بنجاح. (المصدر: InFoQ)

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

تسجيلات الإعجاب 1