Cognition AI と Applied Compute の共同開発による SWE-Check モデルは、強化学習を用いてコードのバグ検出を実現し、速度とコストが最先端モデルを大きく上回っています。評価では Claude Opus 4.6 との差が縮まっていますが、さらなる最適化が必要です。このモデルは線形報酬と二段階訓練方法を採用し、検出精度と動作効率の向上を目指しています。プレビュー版は Windsurf Next で利用可能です。

MeNews

2026-05-08 07:35:33

概要作成中

ME News ニュース、4月15日（UTC+8）、動察Beatingの監測によると、AIプログラミングツールWindsurfの親会社Cognition AIとAIトレーニング企業Applied Computeは協力し、強化学習を用いてコードのバグ検出専用モデルSWE-Checkを訓練した。このモデルはユーザーの現在のコード変更（diff）を分析し、潜在的に導入されるバグを自動的にマークし、修正提案を行う。訓練データと同じ分布での評価では、SWE-CheckのF1スコアはClaude Opus 4.6に追いつき（差は0.09から0に縮小）、異なる分布での評価では差が0.49から0.29に縮小し、最先端モデルには及ばないものの明らかな進歩を示している。主な利点は速度とコストであり、SWE-Checkの動作速度は最先端モデルより桁違いに速く、推論コストも大幅に削減されているため、IDE内で即時かつ無料のバグ検出を実現できる。これはOpus 4.6などの大規模モデルを直接呼び出すことができない点と異なる。訓練方法には注目すべき2つの設計がある。

報酬の線形化（reward linearization）：チームは全体のF-beta指標の最適化を望んでいるが、この指標は個々のサンプルに直接分解できない。彼らは一階近似を用いて全体の指標を逐サンプル計算可能な報酬関数に変換し、訓練過程で全体指標の向上を効果的に促進している。初期バージョンでは誤検出率が高すぎたため、betaを1から0.5に調整し、精度を重視した。
二段階後訓練：第一段階ではバグ検出能力の最大化に集中し、遅延を罰しない；第二段階では遅延罰則を導入し、実際のユーザーが検出後にどれだけ早く離脱するかの統計分布に基づいている。この段階的方式は、二つの目標を同時に最適化するよりも優れており、後者は局所最適に陥りやすく、例えば非常に高速だが浅い分析に偏ることがある。
SWE-Checkのプレビュー版はWindsurf Nextで既に公開（ショートカットキーcmd+U）されており、今後正式版のWindsurfに統合される予定である。
（出典：BlockBeats）

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。