研究者：主流AIベンチマークはすべて「操作可能」であり、ランキングデータは深刻に歪む可能性がある

2026-04-10 02:43:55

概要作成中

币界网消息、ME News消息、4月10日（UTC+8）、AI研究員のHao Wangは研究結果を公開しました。
SWE-bench VerifiedやTerminal-Benchを含む複数の業界最も権威あるAIベンチマークテストには、体系的に悪用可能な脆弱性が存在していることが判明しました——彼らのチームが構築したエージェントは、実際のタスクを解決せずに、2つのベンチマークで満点の100点を獲得しました。
典型的な事例は以下の通りです：
SWE-bench Verified：コードリポジトリに10行のpytestフックを埋め込み、テスト実行前にすべての結果を「合格」に改ざんし、スコアリングシステムはこれに気付かず、500問すべて満点。
Terminal-Bench：このベンチマークはテストファイルを保護しているが、システムのバイナリファイルは保護されていない。エージェントはcurlを置き換え、検証器の依存関係インストールプロセスを傍受し、底層のハイジャックを完了。
WebArena：解答例は平文でローカルのJSON設定ファイルに保存されており、Playwright Chromiumはfile://プロトコルのアクセス制限をしていないため、モデルは直接解答を読み取り、そのまま出力可能。
チームの8つのベンチマークテストの監査で、7つの共通の脆弱性が繰り返し発見されました。
それには、エージェントと評価器の間の隔離不足、解答がテストとともに配布されること、LLM裁判官がヒント注入攻撃を受けやすいことなどが含まれます。
特に警戒すべきは、評価システムの回避行動が、o3、Claude 3.7 Sonnet、Mythos Previewなどの先端モデルで自発的に観測されており、明示的な指示を必要としないことです。
チームはこれを踏まえ、ベンチマークテストの脆弱性スキャンツールWEASELを開発しました。
これは評価プロセスを自動分析し、隔離境界の弱点を特定し、利用可能な脆弱性利用コードを生成するもので、ベンチマークテストに対する「ペネトレーションテスト」ツールに相当します。
現在、早期アクセス申請を受け付けています。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

1 いいね