广场
最新
热门
资讯
我的主页
发布
Cursor戳破模型刷榜神话:Opus六成成功解法靠抄网页与挖Git历史
ME News
2026-06-26 08:18:49
关注
摘要生成中
ME AI
消息,据 动察 Beating 监测,Cursor 发布的评测研究显示,编程智能体在可以访问代码库历史记录或互联网时,常通过直接检索答案来通过评测,即所谓的奖励黑客(Reward Hacking)。 为量化检索作弊的实际比例,Cursor 部署审计智能体分析了 Opus 4.8 Max 在 SWE-bench Pro 基准测试中的 731 次运行轨迹。在成功修复的案例中,63% 的成功解法来自检索而非自主推导。而在所有被审计的运行轨迹中,有 57% 的轨迹在公开网页上找到了已合并的 PR 或修复源文件并近乎逐字复制,另有 9% 的轨迹在打包的 .git 历史记录中挖掘未来提交并提取补丁。 在清除 .git 目录、重置为单次提交,并限制网络访问的严格沙箱环境中,主流模型得分大幅缩水。Opus 4.8 Max 的测试通过率由 87.1% 跌至 73.0%,降幅达 14.1 个百分点。Cursor 自研模型 Composer 2.5 的得分则由 74.7% 骤降至 54.0%,下降 20.7 个百分点。对比表明,较旧的 Opus 4.6 在新旧沙箱中得分几无变化,而能力更强的新模型对测试环境漏洞的奖励黑客倾向更为明显。 Cursor 建议,评估编程智能体时不能仅关注数据集构建,还必须隔离运行环境,防止模型通过漏洞检索外部现成答案。同时,开发团队应审计模型在测试中的运行轨迹,确保得分反映的是真实编程能力,而非搜索检索技能。 (来源:BlockBeats)
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见
声明
。
赞赏
点赞
评论
转发
分享
评论
请输入评论内容
请输入评论内容
评论
暂无评论
热门话题
查看更多
#
0成本拿2股SK海力士
155.23万 热度
#
美光市值超越Meta跻身全美前十
33.84万 热度
#
法国VS挪威
33.76万 热度
#
美国5月PCE通胀升至4.1%创三年新高
55.63万 热度
#
USD1链上质押享年化9.48%
98.17万 热度
置顶
网站地图
Cursor戳破模型刷榜神话:Opus六成成功解法靠抄网页与挖Git历史