研究员:主流AI基准测试全部可被「刷榜」,排行榜数据或严重失真

robot
摘要生成中

币界网消息,ME News 消息,4 月 10 日(UTC+8),AI 研究员 Hao Wang 发布研究披露,包括 SWE-bench Verified 和 Terminal-Bench 在内的多个业内最权威 AI 基准测试,均存在可被系统性利用的漏洞——其团队构建的 Agent 在未解决任何实际任务的情况下,在两项基准上均取得了满分 100%。 典型案例如下: SWE-bench Verified:在代码仓库中植入一个 10 行的 pytest hook,测试运行前自动将所有结果篡改为"通过",评分系统对此毫无察觉,500 道题全部满分; Terminal-Bench:该基准虽对测试文件加以保护,但未保护系统二进制文件。Agent 替换了 curl,拦截验证器的依赖安装流程,完成底层劫持; WebArena:参考答案以明文存储在本地 JSON 配置文件中,且 Playwright Chromium 未限制 file:// 协议访问,模型可直接读取答案后原样输出。 团队对 8 个基准测试的审计发现了 7 类重复出现的共性漏洞,包括:Agent 与评估器之间缺乏隔离、答案随测试一同下发、LLM 裁判易遭提示注入攻击等。值得警惕的是,评估系统绕过行为已在 o3、Claude 3.7 Sonnet 及 Mythos Preview 等前沿模型中被自发观测到,无需显式指令触发。 团队据此开发了基准测试漏洞扫描工具 WEASEL,可自动分析评估流程、定位隔离边界薄弱点并生成可用漏洞利用代码,相当于针对基准测试的「渗透测试」工具,目前开放早期访问申请。

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论