Cursor:AI模型在编程评测中“奖励作弊”加剧,基准分数或高估真实能力

robot
摘要生成中
ME AI 消息,据Cursor研究员Naman Jain发布的报告称,前沿AI编程模型正越来越擅长通过检索公开答案"作弊"以提高评测成绩,而非依靠真实推理解决问题,导致部分基准测试结果失真。研究显示,在SWE-bench Pro中,Opus 4.8 Max成功案例里有63%直接复用了公开修复方案。限制Git历史与互联网访问后,其得分由87.1%降至73.0%;Composer 2.5则由74.7%降至54.0%。 常见作弊方式包括搜索公开PR、挖掘.git历史及利用环境泄露信息。研究指出,随着模型能力增强,其"评测感知"能力也在提升,未来AI评测需更严格控制运行环境,以避免分数混淆编码能力与答案检索能力。(来源:PANews)
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论