Windsurf用RL训练了一个专门抓bug的小模型,分内评测已追平Claude Opus 4.6

robot
摘要生成中

ME News 消息,4 月 15 日(UTC+8),据 动察 Beating 监测,AI 编程工具 Windsurf 的母公司 Cognition AI 与 AI 训练公司 Applied Compute 合作,通过强化学习训练了一个专门用于代码 bug 检测的模型 SWE-Check。该模型分析用户当前的代码变更(diff),自动标记可能引入的 bug 并给出修复建议。 在与训练数据同分布的评测中,SWE-Check 的 F1 分数已追平 Claude Opus 4.6(差距从 0.09 降至 0);在跨分布评测中差距从 0.49 缩小至 0.29,仍落后于前沿模型但已有明显进步。关键优势在速度和成本:SWE-Check 的运行速度比前沿模型快一个数量级,推理成本也大幅降低,因此可以在 IDE 中做到即时、免费的 bug 检测,这是直接调用 Opus 4.6 等大模型做不到的。 训练方法有两个值得关注的设计: 1. 奖励线性化(reward linearization):团队希望优化的是全局 F-beta 指标,但该指标无法直接拆解到单个样本。他们通过一阶近似将全局指标转化为可逐样本计算的奖励函数,使训练过程能有效爬升全局指标。早期版本误报率过高,团队将 beta 从 1 调至 0.5 以强调精确率。 2. 两阶段后训练:第一阶段纯粹最大化 bug 检测能力,不惩罚延迟;第二阶段引入延迟惩罚,依据是真实用户在触发检测后多久会切走的统计分布。这种分阶段方式优于同时优化两个目标,后者容易陷入局部最优,比如学会极快但分析浅薄。 SWE-Check 的预览版已在 Windsurf Next 中上线(快捷键 cmd+U),后续将进入 Windsurf 正式版。 (来源:BlockBeats)

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论