ME News ニュース、4月5日(UTC+8)、最近、Grok 4.20 ベータ版は τ²-Bench 評価で97%の正確率を達成し、2位にランクインしました。τ²-Bench は Sierra のオリジナル τ-bench フレームワークを基に構築された評価で、その厳しさで知られています。この評価は、AIが質問に答える能力だけでなく、エージェントがナビゲーションタスクを成功裏に完了できるかどうかもテストします。(出典:InFoQ)
Grok 4.20 Beta は τ²-Bench の評価で 97% の精度を達成し、総合で2位となりました
ME News ニュース、4月5日(UTC+8)、最近、Grok 4.20 ベータ版は τ²-Bench 評価で97%の正確率を達成し、2位にランクインしました。τ²-Bench は Sierra のオリジナル τ-bench フレームワークを基に構築された評価で、その厳しさで知られています。この評価は、AIが質問に答える能力だけでなく、エージェントがナビゲーションタスクを成功裏に完了できるかどうかもテストします。(出典:InFoQ)