研究员：主流AI基准测试全部可被「刷榜」，排行榜数据或严重失真

2026-04-10 02:43:55

摘要生成中

币界网消息，ME News 消息，4 月 10 日（UTC+8），AI 研究员 Hao Wang 发布研究披露，包括 SWE-bench Verified 和 Terminal-Bench 在内的多个业内最权威 AI 基准测试，均存在可被系统性利用的漏洞——其团队构建的 Agent 在未解决任何实际任务的情况下，在两项基准上均取得了满分 100%。典型案例如下： SWE-bench Verified：在代码仓库中植入一个 10 行的 pytest hook，测试运行前自动将所有结果篡改为"通过"，评分系统对此毫无察觉，500 道题全部满分； Terminal-Bench：该基准虽对测试文件加以保护，但未保护系统二进制文件。Agent 替换了 curl，拦截验证器的依赖安装流程，完成底层劫持； WebArena：参考答案以明文存储在本地 JSON 配置文件中，且 Playwright Chromium 未限制 file:// 协议访问，模型可直接读取答案后原样输出。团队对 8 个基准测试的审计发现了 7 类重复出现的共性漏洞，包括：Agent 与评估器之间缺乏隔离、答案随测试一同下发、LLM 裁判易遭提示注入攻击等。值得警惕的是，评估系统绕过行为已在 o3、Claude 3.7 Sonnet 及 Mythos Preview 等前沿模型中被自发观测到，无需显式指令触发。团队据此开发了基准测试漏洞扫描工具 WEASEL，可自动分析评估流程、定位隔离边界薄弱点并生成可用漏洞利用代码，相当于针对基准测试的「渗透测试」工具，目前开放早期访问申请。

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

1人点赞了这条动态

赞赏
1
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
Gate上线Pre-IPOs
18.55万热度
#
加密市场回升
4.59万热度
#
原油小幅上涨
116.75万热度
#
美伊停火协议谈判再生变故
55.92万热度
#
大摩比特币现货ETF上市
44.28万热度

热门 Gate Fun
查看更多

1
CTCUM
Cryptocium
市值:$2244.82持有人数:1
0.00%
2
MRT
Memorial Token
市值:$2344.98持有人数:4
0.50%
3
T.T
无限充值的忏悔
市值:$2255.17持有人数:1
0.00%
4
人民币
人民币
市值:$2891.3持有人数:2
4.35%
5
Fjb
飞机杯
市值:$0.1持有人数:1
0.00%

研究员：主流AI基准测试全部可被「刷榜」，排行榜数据或严重失真

热门话题

Gate上线Pre-IPOs

加密市场回升

原油小幅上涨

美伊停火协议谈判再生变故

大摩比特币现货ETF上市

热门 Gate Fun

CTCUM

Cryptocium

MRT

Memorial Token

T.T

无限充值的忏悔

人民币

人民币

Fjb

飞机杯

置顶