Grok 4.20 Beta 在 τ²-Bench 评测中获 97% 准确率，排名第二

2026-04-09 19:53:33

ME News 消息，4 月 5 日（UTC+8），近日，Grok 4.20 Beta 版本在 τ²-Bench 评测中取得了 97% 的准确率，排名第二。τ²-Bench 是基于 Sierra 原始 τ-bench 框架构建的评测，以其严苛性著称。该评测不仅测试 AI 能否回答问题，还测试智能体能否成功完成导航任务。（来源：InFoQ）

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

2人点赞了这条动态

赞赏
2
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
Gate上线Pre-IPOs
17.54万热度
#
加密市场小幅下跌
49.25万热度
#
原油小幅上涨
113.31万热度
#
美伊停火协议谈判再生变故
55.4万热度
#
大摩比特币现货ETF上市
43.94万热度

热门 Gate Fun
查看更多

1
gt
Helu
市值:$2251.72持有人数:1
0.00%
2
GT-13
GATE-13
市值:$2262.06持有人数:1
0.00%
3
Croco🐊
Croco🐊
市值:$2258.62持有人数:1
0.00%
4
Moon
Moon
市值:$0.1持有人数:0
0.00%
5
dfd
ekle uıe
市值:$2251.72持有人数:1
0.00%

Grok 4.20 Beta 在 τ²-Bench 评测中获 97% 准确率，排名第二

热门话题

Gate上线Pre-IPOs

加密市场小幅下跌

原油小幅上涨

美伊停火协议谈判再生变故

大摩比特币现货ETF上市

热门 Gate Fun

gt

Helu

GT-13

GATE-13

Croco🐊

Croco🐊

Moon

Moon

dfd

ekle uıe

置顶