10,000 USDT 悬赏,寻找Gate广场跟单金牌星探!🕵️♀️
挖掘顶级带单员,赢取高额跟单体验金!
立即参与:https://www.gate.com/campaigns/4624
🎁 三大活动,奖金叠满:
1️⃣ 慧眼识英:发帖推荐带单员,分享跟单体验,抽 100 位送 30 USDT!
2️⃣ 强力应援:晒出你的跟单截图,为大神打 Call,抽 120 位送 50 USDT!
3️⃣ 社交达人:同步至 X/Twitter,凭流量赢取 100 USDT!
📍 标签: #跟单金牌星探 #GateCopyTrading
⏰ 限时: 4/22 16:00 - 5/10 16:00 (UTC+8)
详情:https://www.gate.com/announcements/article/50848
Windsurf用RL训练了一个专门抓bug的小模型,分内评测已追平Claude Opus 4.6
ME News 消息,4 月 15 日(UTC+8),据 动察 Beating 监测,AI 编程工具 Windsurf 的母公司 Cognition AI 与 AI 训练公司 Applied Compute 合作,通过强化学习训练了一个专门用于代码 bug 检测的模型 SWE-Check。该模型分析用户当前的代码变更(diff),自动标记可能引入的 bug 并给出修复建议。 在与训练数据同分布的评测中,SWE-Check 的 F1 分数已追平 Claude Opus 4.6(差距从 0.09 降至 0);在跨分布评测中差距从 0.49 缩小至 0.29,仍落后于前沿模型但已有明显进步。关键优势在速度和成本:SWE-Check 的运行速度比前沿模型快一个数量级,推理成本也大幅降低,因此可以在 IDE 中做到即时、免费的 bug 检测,这是直接调用 Opus 4.6 等大模型做不到的。 训练方法有两个值得关注的设计: 1. 奖励线性化(reward linearization):团队希望优化的是全局 F-beta 指标,但该指标无法直接拆解到单个样本。他们通过一阶近似将全局指标转化为可逐样本计算的奖励函数,使训练过程能有效爬升全局指标。早期版本误报率过高,团队将 beta 从 1 调至 0.5 以强调精确率。 2. 两阶段后训练:第一阶段纯粹最大化 bug 检测能力,不惩罚延迟;第二阶段引入延迟惩罚,依据是真实用户在触发检测后多久会切走的统计分布。这种分阶段方式优于同时优化两个目标,后者容易陷入局部最优,比如学会极快但分析浅薄。 SWE-Check 的预览版已在 Windsurf Next 中上线(快捷键 cmd+U),后续将进入 Windsurf 正式版。 (来源:BlockBeats)