Grok 4.20 Beta حققت دقة بنسبة 97% في تقييم τ²-Bench، وحصلت على المركز الثاني

2026-04-09 19:28:48

أخبار ME، 5 أبريل (بتوقيت UTC+8)، مؤخرًا، حققت نسخة Grok 4.20 بيتا معدل دقة بنسبة 97% في تقييم τ²-Bench، مما جعلها تحتل المرتبة الثانية. τ²-Bench هو تقييم مبني على إطار عمل Sierra الأصلي τ-bench، ويشتهر بصرامته. لا يختبر هذا التقييم فقط قدرة الذكاء الاصطناعي على الإجابة على الأسئلة، بل يختبر أيضًا قدرة الوكيل الذكي على إكمال مهام التنقل بنجاح. (المصدر: InFoQ)

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

تسجيلات الإعجاب 1