3月4日、両機関は共同で評価結果を発表した。このテストは「SWE-CI:継続的インテグレーションを通じたエージェントのコードベース維持能力の評価」(SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration)と名付けられ、Anthropic、OpenAI、Kimi、DeepSeekなど8社の主流AI大規模モデル18種類の長期的なコード維持能力について、初めて厳格な体系的評価を行った。
初めての評価結果公開:AIによるコード修正、ほとんどの場合「ますます悪化」!プログラマーは自分の仕事を心配する必要があるのか?
近年、AI大規模モデルのプログラミング能力は飛躍的に進歩し、各大AI企業はプログラミングのベンチマークテストで競い合い、記録を次々に更新している。これにより、多くのプログラマーは「AIに仕事を奪われるのではないか」と不安を抱き始めている。
しかし、中山大学とAlibabaの共同発表した最新の研究は、プログラマーたちに安心材料をもたらした。
3月4日、両機関は共同で評価結果を発表した。このテストは「SWE-CI:継続的インテグレーションを通じたエージェントのコードベース維持能力の評価」(SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration)と名付けられ、Anthropic、OpenAI、Kimi、DeepSeekなど8社の主流AI大規模モデル18種類の長期的なコード維持能力について、初めて厳格な体系的評価を行った。
テストは100項目のタスクから構成され、総Token消費は100億を超える。結果は、Claude Opusシリーズが総合的にトップの成績を収めた。
**制御性能の劣化に関しては、千問、DeepSeek、MiniMax、Kimi、豆包など多くのAIモデルのパフォーマンスが明らかに劣る結果となった。**つまり、AIは長期的なコード維持の過程で、コードを「どんどん悪化させる」可能性が示された。
中国チームが世界初のAI大規模モデルの長期コード維持能力を評価するシステムを開発
長らく、AIのプログラミング能力を評価する主流のベンチマークはスナップショット方式で、「一度の要求受領と一括出力」に焦点を当てていた。
しかし、この評価方法は、AIが正しい機能のコードを書けるかどうかだけを検証し、実際のソフトウェア開発における継続的な反復や長期的なメンテナンスの核心的ニーズを反映していない。
現実には、成熟したソフトウェアは一朝一夕でできるものではなく、長期的なメンテナンスの結果である。リーマンの法則は、ソフトウェアの品質はメンテナンスとともに自然に低下することを示している。さらに、メンテナンス作業はソフトウェアのライフサイクル総コストの60%から80%を占める。
AIの長期的なコード維持能力を評価するために、中山大学とAlibabaチームはSWE-CI評価基準を共同で開発した。これは、AIエージェントの長期的なコード維持能力を評価する世界初のシステムであり、「一度の正解」だけでなく、数ヶ月、あるいは数年にわたる開発過程でコードの品質を持続的に保つことができるかどうかを評価する。
SWE-CIの構築は四層の厳格な選定を経て、高品質な評価セットを形成している。
研究チームはまず、GitHub全体のPythonコードリポジトリから、3年以上のメンテナンス歴、スター数500超、依存ファイルと完全なユニットテストを含み、MIT/Apache 2.0など緩やかなライセンスのコードリポジトリ4923個を抽出。次に、依存関係の安定性とコード変更量が1000行超のコミットペアを抽出し、8311の候補サンプルを得る。これらを自動でDocker環境に構築し、自己修復依存関係を備えた1458組の動作可能な候補ペアを残す。最後に、テスト起動の検証、成功率の差異、時間跨度とコミット数に基づき、最終的に100項目のタスクを確定した。
この100項目のタスクは、実世界のソフトウェアプロジェクトの完全な進化過程を反映している。平均開発期間は233日、連続コードコミットは71回に及ぶ。さらに、「アーキテクト-プログラマー」の二重エージェント協働メカニズムも設計された。これは、実際のソフトウェアチームの分業パターンに着想を得ている:アーキテクトは要求分析と技術方案の策定を担当し、プログラマーは具体的なコーディングを行う。
長期反復評価に対応するため、SWE-CIは「正規化変化」と「EvoScore(進化スコア)」の二つの主要指標を導入した。
「正規化変化」はテストケースの合格数を基に、コードの状態を[-1, 1]の範囲にマッピングし、正の値は機能向上、負の値は機能の退化を示す。
EvoScoreは、将来の修正タスクにおけるAI大規模モデルのパフォーマンスをより重視している。
実測結果:Claude Opusが圧倒的にトップ 75%以上のタスクでコードを破壊する大規模モデルも存在
研究チームは、月之暗面、Anthropic、智谱、千問、MiniMax、DeepSeek、OpenAI、豆包の8社の18種類の主流AIモデルを体系的にテストし、総消費Tokenは100億を超えた。この規模の実験は、AIプログラミング評価の分野では前例のない規模である。
結果は、時間の経過とともに、AIモデルのコード維持能力の進化が明らかに加速していることを示した。
**下の図からもわかるように、同一企業の新バージョンは一般的に前世代より安定性が高く、2026年以降の進化は特に顕著で、EvoScoreも高い。**これにより、現在の大規模モデルのコード能力は、静的なバグ修正から、継続的・長期的なコード維持へと急速に進化していることがわかる。
全ての参加モデルの中で、Claude Opusシリーズが最も優れており、Claude-opus-4.5から4.6にかけてEvoScoreは約0.9に跳ね上がり、他の競合を大きく引き離している。
中国のAIモデルでは、智谱GLMシリーズが著しい進歩を見せ、第二層の中で最も競争力のある選手となった。次いでQwenやMiniMaxも全体的に良好な傾向を示す。一方、Kimiや豆包は改善が見られるものの、突破的な進展には至っていない。
また、異なる企業のモデルは、訓練戦略の好みや偏りに明確な差異があることも判明した。
具体的には、**MiniMax、DeepSeek、OpenAIのGPTシリーズは長期的な効果を重視し、長期コード維持タスクにおいて優位性を示している。**これらは、コード生成時に長期的な進化や安定性を重視した戦略を採用していることを意味する。
一方、Kimiや智谱GLMシリーズは、短期的な効果を重視した最適化路線を取っている。
千問、豆包、Claudeシリーズは、短期効果と長期メンテナンスのバランスを取る訓練戦略を採用している。
さらに、重要な発見として、長期的なコード維持において、すべてのモデルが性能の退化(Regression)を効果的に抑制できていないことが明らかになった。
**性能退化は、ソフトウェアの品質安定性を測る重要指標である。**既存のユニットテストに合格していたコードが、更新後に失敗した場合、その変更は性能の退化を引き起こしたと判定される。性能退化が起きると、ユーザー体験に直接影響し、長期的にはシステムの品質が系統的に低下する恐れがある。
研究チームは、「ゼロ退化率」—メンテナンス期間中に一度も既存機能を破壊しなかったタスクの割合—を測定した。ゼロ退化率が高いほど、システムの安定性は高い。
結果は、**18モデル中、AnthropicのClaude Opusが50%以上のゼロ退化率を維持し、最も安定していることを示した。**多くのモデルは25%未満であり、長期コード維持の観点ではまだ改善の余地が大きい。
具体的には、Claude-opus-4.6は76%のゼロ退化率を記録し、圧倒的に高い。Claude-opus-4.5は51%で2位。これに対し、Kimi-K2.5(37%)やGLM-5(36%)は次点となる。その他のモデル(GPT-5.2、Qwen3.5-plus、MiniMax-M2.5、DeepSeek-V3.2など)は25%未満で、長期的なコード維持において、75%以上のタスクでコードの破壊や性能退化が起きている。
ただし、バージョンの進化に伴い、トップ企業のモデルは急速に改善している。例えば、Claude-opusシリーズは、4.5から4.6へのアップデートでゼロ退化率が51%から76%に向上した。智谱GLMも、GLM-4.6や4.7の14%からGLM-5の36%へと大きく改善している。
それでも、多くのモデルは長期的なコード維持において性能退化の問題を完全に解決できておらず、信頼性の高い自動化長期開発にはまだ距離がある。
SWE-CI評価結果の公開により、業界は「コードを書く能力」と「コードを維持する能力」が明確に異なることを認識した。今後は、メンテナンス性の向上、性能退化の抑制、アーキテクチャ設計能力の継続的な最適化が、勝負の鍵となるだろう。
(免責事項:本文の内容とデータは参考用であり、投資の勧誘を意図したものではありません。ご利用前にご自身でご確認ください。自己責任でご使用ください。)
記者|兰素英 常宋资燊(インターン)
編集|何小桃 王嘉琦 杜恒峰
校正|段炼