ME News ニュース、4月15日(UTC+8)、動察Beatingの監測によると、AIプログラミングツールWindsurfの親会社Cognition AIとAIトレーニング企業Applied Computeは協力し、強化学習を用いてコードのバグ検出専用モデルSWE-Checkを訓練した。このモデルはユーザーの現在のコード変更(diff)を分析し、潜在的に導入されるバグを自動的にマークし、修正提案を行う。訓練データと同じ分布での評価では、SWE-CheckのF1スコアはClaude Opus 4.6に追いつき(差は0.09から0に縮小)、異なる分布での評価では差が0.49から0.29に縮小し、最先端モデルには及ばないものの明らかな進歩を示している。主な利点は速度とコストであり、SWE-Checkの動作速度は最先端モデルより桁違いに速く、推論コストも大幅に削減されているため、IDE内で即時かつ無料のバグ検出を実現できる。これはOpus 4.6などの大規模モデルを直接呼び出すことができない点と異なる。訓練方法には注目すべき2つの設計がある。
WindsurfはRLを用いてバグ捕捉専用の小さなモデルを訓練し、内部評価ではClaude Opus 4.6に追いついた
ME News ニュース、4月15日(UTC+8)、動察Beatingの監測によると、AIプログラミングツールWindsurfの親会社Cognition AIとAIトレーニング企業Applied Computeは協力し、強化学習を用いてコードのバグ検出専用モデルSWE-Checkを訓練した。このモデルはユーザーの現在のコード変更(diff)を分析し、潜在的に導入されるバグを自動的にマークし、修正提案を行う。訓練データと同じ分布での評価では、SWE-CheckのF1スコアはClaude Opus 4.6に追いつき(差は0.09から0に縮小)、異なる分布での評価では差が0.49から0.29に縮小し、最先端モデルには及ばないものの明らかな進歩を示している。主な利点は速度とコストであり、SWE-Checkの動作速度は最先端モデルより桁違いに速く、推論コストも大幅に削減されているため、IDE内で即時かつ無料のバグ検出を実現できる。これはOpus 4.6などの大規模モデルを直接呼び出すことができない点と異なる。訓練方法には注目すべき2つの設計がある。
SWE-Checkのプレビュー版はWindsurf Nextで既に公開(ショートカットキーcmd+U)されており、今後正式版のWindsurfに統合される予定である。
(出典:BlockBeats)