Grok 4.20 Beta حققت دقة بنسبة 97% في تقييم τ²-Bench، وحصلت على المركز الثاني

MeNews · 2026-04-09T05:01:33+00:00

أخبار ME، في 5 أبريل (بتوقيت UTC+8)، مؤخرًا، حقق إصدار Grok 4.20 Beta معدل دقة بنسبة 97% في تقييم τ²-Bench، محتلاً المركز الثاني. τ²-Bench هو تقييم مبني على إطار عمل Sierra الأصلي τ-bench ويشتهر بصرامته. هذا التقييم لا يختبر فقط الذكاء الاصطناعي

MeNews

2026-04-09 05:01:33

أخبار ME: رسالة، في 5 أبريل (UTC+8)، في الآونة الأخيرة حقق إصدار Grok 4.20 التجريبي نسبة دقة 97% في تقييم τ²-Bench، محتلاً المرتبة الثانية. يُعد τ²-Bench تقييمًا مبنيًا على إطار τ-bench الأصلي الخاص بـ Sierra، ويشتهر بصرامته. لا يختبر هذا التقييم ما إذا كان الذكاء الاصطناعي قادرًا على الإجابة عن الأسئلة فحسب، بل يختبر أيضًا ما إذا كانت الوكالات/العوامل يمكنها إكمال مهام التوجيه بنجاح. (المصدر: InFoQ)

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.