WindsurfはRLを用いてバグを捕まえる専用の小さなモデルを訓練し、内部評価ではClaude Opus 4.6に追いついた

robot
概要作成中

ME News ニュース、4月15日(UTC+8)、動察Beatingの監測によると、AIプログラミングツールWindsurfの親会社Cognition AIとAIトレーニング企業Applied Computeは協力し、強化学習を用いてコードのバグ検出専用モデルSWE-Checkを訓練した。このモデルはユーザーの現在のコード変更(diff)を分析し、潜在的なバグを自動的にマークし修正提案を行う。 訓練データと同じ分布の評価において、SWE-CheckのF1スコアはClaude Opus 4.6に追いつき(差は0.09から0に縮小)、異なる分布の評価では差が0.49から0.29に縮小し、最先端モデルには及ばないものの明らかな進歩を示している。 主要な利点は速度とコスト:SWE-Checkの動作速度は最先端モデルより桁違いに速く、推論コストも大幅に削減されているため、IDE内で即時かつ無料のバグ検出を実現できる。これはOpus 4.6などの大規模モデルを直接呼び出すことができない点で優れている。 訓練方法には注目すべき2つの設計がある: 1. 報酬の線形化(reward linearization):チームは全体のF-beta指標の最適化を望んでいるが、この指標は個々のサンプルに直接分解できない。彼らは一階近似を用いて全体指標を逐サンプル計算可能な報酬関数に変換し、訓練過程で全体指標の向上を効果的に促進している。初期バージョンでは誤検出率が高すぎたため、betaを1から0.5に調整し、精度を重視した。 2. 二段階後訓練:第一段階ではバグ検出能力の最大化のみを行い、遅延を罰しない;第二段階では遅延罰則を導入し、実際のユーザーが検出後にどれだけ早く離脱するかの統計分布に基づく。この段階的方式は、二つの目標を同時に最適化するよりも優れており、局所最適に陥りやすい浅い分析や極端に高速な検出に偏ることを防ぐ。 SWE-Checkのプレビュー版はWindsurf Nextで既に公開(ショートカットキーcmd+U)、今後正式版のWindsurfに統合される予定である。 (出典:BlockBeats)

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン