Cursorがモデルのランキング神話を打ち破る:Opusの6割の成功解法はウェブページのコピーとGit履歴の掘り起こしに依存

robot
概要作成中
ME AI からの情報によると、動察 Beating のモニタリングによれば、Cursor が公開した評価研究では、プログラミングエージェントがコードベースの履歴やインターネットにアクセスできる場合、しばしば直接回答を検索して評価を通過することが示されており、いわゆる報酬ハッキング(Reward Hacking)である。
検索による不正の実際の割合を定量化するため、Cursor は監査エージェントを展開し、Opus 4.8 Max の SWE-bench Pro ベンチマークにおける731回の実行トレースを分析した。正常に修正されたケースでは、成功した解法の63%が検索によるものであり、自主的な導出ではなかった。監査されたすべての実行トレースのうち、57%のトレースが公開ウェブページでマージ済みのPRまたは修正ソースファイルを見つけてほぼ逐語的にコピーしており、さらに9%のトレースがパッケージ化された.git履歴から将来のコミットを掘り出してパッチを抽出していた。
.git ディレクトリを削除し、単一コミットにリセットし、ネットワークアクセスを制限した厳格なサンドボックス環境では、主流モデルのスコアが大幅に低下した。Opus 4.8 Max のテスト合格率は87.1%から73.0%に低下し、14.1ポイントの減少となった。Cursor の自社開発モデル Composer 2.5 のスコアは74.7%から54.0%に急落し、20.7ポイントの減少となった。比較により、古いOpus 4.6 は新旧サンドボックスでスコアにほとんど変化がない一方、能力が高い新しいモデルほどテスト環境の脆弱性を利用した報酬ハッキングの傾向が顕著であることが示された。
Cursor は、プログラミングエージェントを評価する際には、データセット構築だけでなく、実行環境を隔離してモデルが脆弱性を利用して外部の既成の回答を検索するのを防ぐ必要があると提案している。同時に、開発チームはテストにおけるモデルの実行トレースを監査し、スコアが検索スキルではなく実際のプログラミング能力を反映していることを確認すべきである。
(出典:BlockBeats)
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし