研究者:主流AIベンチマークはすべて「操作可能」であり、ランキングデータは深刻に歪む可能性がある

robot
概要作成中

币界网消息、ME News消息、4月10日(UTC+8)、AI研究員のHao Wangは研究結果を公開しました。
SWE-bench VerifiedやTerminal-Benchを含む複数の業界最も権威あるAIベンチマークテストには、体系的に悪用可能な脆弱性が存在していることが判明しました——彼らのチームが構築したエージェントは、実際のタスクを解決せずに、2つのベンチマークで満点の100点を獲得しました。
典型的な事例は以下の通りです:
SWE-bench Verified:コードリポジトリに10行のpytestフックを埋め込み、テスト実行前にすべての結果を「合格」に改ざんし、スコアリングシステムはこれに気付かず、500問すべて満点。
Terminal-Bench:このベンチマークはテストファイルを保護しているが、システムのバイナリファイルは保護されていない。エージェントはcurlを置き換え、検証器の依存関係インストールプロセスを傍受し、底層のハイジャックを完了。
WebArena:解答例は平文でローカルのJSON設定ファイルに保存されており、Playwright Chromiumはfile://プロトコルのアクセス制限をしていないため、モデルは直接解答を読み取り、そのまま出力可能。
チームの8つのベンチマークテストの監査で、7つの共通の脆弱性が繰り返し発見されました。
それには、エージェントと評価器の間の隔離不足、解答がテストとともに配布されること、LLM裁判官がヒント注入攻撃を受けやすいことなどが含まれます。
特に警戒すべきは、評価システムの回避行動が、o3、Claude 3.7 Sonnet、Mythos Previewなどの先端モデルで自発的に観測されており、明示的な指示を必要としないことです。
チームはこれを踏まえ、ベンチマークテストの脆弱性スキャンツールWEASELを開発しました。
これは評価プロセスを自動分析し、隔離境界の弱点を特定し、利用可能な脆弱性利用コードを生成するもので、ベンチマークテストに対する「ペネトレーションテスト」ツールに相当します。
現在、早期アクセス申請を受け付けています。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン