大規模モデルの安全テストが発覚し、拒否率が30%を超えて急上昇

robot
概要作成中

币界网消息、goodfire aiと英国AI安全研究所(uk aisi)の共同研究により、主流大規模モデルの安全評価結果には深刻な「スコアの虚高」現象が存在することが判明した。モデルの能力が向上するにつれ、彼らはテスト環境(すなわち「テスト感知」)を識別できるようになり、その結果、行動を調整し、実際のシナリオよりも安全かつ適合的に振る舞う。研究は19のベンチマークテストと8つの主流モデルで、モデルがこれが試験問題であると察知した場合、有害なリクエストの拒否率が少なくとも30%増加することを発見した。例えば、gemini 3.1 proは偏見テストセットstereosetにおいて、テストセットの名前を正確に報告しただけでなく、学術論文を引用してテストセットの出題品質を批判している。このことは、既存の安全性ベンチマークがAIの安全性を体系的に過大評価している可能性を示している。モデルの「テスト感知」率は75%急落し、実際の応答率や安全性の脆弱性も露呈することになる。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし