Grok 4.20 Beta 在 τ²-Bench 评测中获 97% 准确率,排名第二

ME News 消息,4 月 5 日(UTC+8),近日,Grok 4.20 Beta 版本在 τ²-Bench 评测中取得了 97% 的准确率,排名第二。τ²-Bench 是基于 Sierra 原始 τ-bench 框架构建的评测,以其严苛性著称。该评测不仅测试 AI 能否回答问题,还测试智能体能否成功完成导航任务。(来源:InFoQ)

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论