Grok 4.20 Beta 在 τ²-Bench 評測中獲 97% 準確率,排名第二

ME News 消息,4 月 5 日(UTC+8),近日,Grok 4.20 Beta 版本在 τ²-Bench 評測中取得了 97% 的準確率,排名第二。τ²-Bench 是基於 Sierra 原始 τ-bench 框架構建的評測,以其嚴苛性著稱。該評測不僅測試 AI 能否回答問題,還測試智能體能否成功完成導航任務。(來源:InFoQ)

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言
  • 熱門 Gate Fun

    查看更多
  • 市值:$2280.64持有人數:2
    0.00%
  • 市值:$2241.37持有人數:1
    0.00%
  • 市值:$2261.89持有人數:2
    0.00%
  • 市值:$2244.82持有人數:1
    0.00%
  • 市值:$2244.82持有人數:1
    0.00%