Grok 4.20 Beta حققت دقة بنسبة 97% في تقييم τ²-Bench، وحصلت على المركز الثاني

MeNews · 2026-04-09T08:17:18+00:00

أخبار ME، في 5 أبريل (بتوقيت UTC+8)، مؤخرًا، حقق إصدار Grok 4.20 Beta معدل دقة بنسبة 97% في تقييم τ²-Bench، محتلاً المركز الثاني. τ²-Bench هو تقييم مبني على إطار عمل Sierra الأصلي τ-bench ويشتهر بصرامته. هذا التقييم لا يختبر فقط الذكاء الاصطناعي

MeNews

2026-04-09 08:17:18

أخبار ME، رسالة، 5 أبريل (UTC+8)، في الآونة الأخيرة، حقق إصدار Grok 4.20 Beta نسبة دقة بلغت 97% في تقييم τ²-Bench، ليحل في المركز الثاني. يُعد τ²-Bench تقييمًا مبنيًا على إطار τ-bench الأصلي من Sierra، ويشتهر بصرامته. لا يختبر هذا التقييم فقط ما إذا كانت الذكاء الاصطناعي يمكنه الإجابة عن الأسئلة، بل يختبر أيضًا ما إذا كان الوكيل يمكنه إكمال مهام التوجيه بنجاح. (المصدر: InFoQ)

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

تسجيلات الإعجاب 2