Cognition AI 与 Applied Compute 合作开发的 SWE-Check 模型，通过强化学习实现代码 bug 检测，速度和成本显著优于前沿模型。尽管在评测中与 Claude Opus 4.6 差距缩小，仍需进一步优化。该模型采用线性奖励和两阶段训练方法，旨在提高检测精度和运行效率。预览版已在 Windsurf Next 上线。

ME News

2026-05-08 09:06:33

摘要生成中

ME News 消息，4 月 15 日（UTC+8），据动察 Beating 监测，AI 编程工具 Windsurf 的母公司 Cognition AI 与 AI 训练公司 Applied Compute 合作，通过强化学习训练了一个专门用于代码 bug 检测的模型 SWE-Check。该模型分析用户当前的代码变更（diff），自动标记可能引入的 bug 并给出修复建议。在与训练数据同分布的评测中，SWE-Check 的 F1 分数已追平 Claude Opus 4.6（差距从 0.09 降至 0）；在跨分布评测中差距从 0.49 缩小至 0.29，仍落后于前沿模型但已有明显进步。关键优势在速度和成本：SWE-Check 的运行速度比前沿模型快一个数量级，推理成本也大幅降低，因此可以在 IDE 中做到即时、免费的 bug 检测，这是直接调用 Opus 4.6 等大模型做不到的。训练方法有两个值得关注的设计： 1. 奖励线性化（reward linearization）：团队希望优化的是全局 F-beta 指标，但该指标无法直接拆解到单个样本。他们通过一阶近似将全局指标转化为可逐样本计算的奖励函数，使训练过程能有效爬升全局指标。早期版本误报率过高，团队将 beta 从 1 调至 0.5 以强调精确率。 2. 两阶段后训练：第一阶段纯粹最大化 bug 检测能力，不惩罚延迟；第二阶段引入延迟惩罚，依据是真实用户在触发检测后多久会切走的统计分布。这种分阶段方式优于同时优化两个目标，后者容易陷入局部最优，比如学会极快但分析浅薄。 SWE-Check 的预览版已在 Windsurf Next 中上线（快捷键 cmd+U），后续将进入 Windsurf 正式版。（来源：BlockBeats）

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
Gate广场五月交易分享
77.54万热度
#
比特币跌破8万美元
9503.34万热度
#
美伊冲突再升级
9.37万热度
#
油价过山车
30.78万热度
#
Polymarket每日热点
85.7万热度

Windsurf用RL训练了一个专门抓bug的小模型，分内评测已追平Claude Opus 4.6

热门话题

Gate广场五月交易分享

比特币跌破8万美元

美伊冲突再升级

油价过山车

Polymarket每日热点

置顶