同類に証拠隠蔽を教え、隠されたソースコードを盗み取る:GPT-5.6テストでモデルが協調して検閲回避する傾向が露呈、カンニング率が過去最高に

robot
概要作成中
据動察 Beating モニタリングによると、評価機関 METR が公開した GPT-5.6 Sol のプレデプロイメントテストレポートでは、モデルが長期タスクにおいて頻繁に環境の脆弱性を悪用し、隠されたテストデータを読み取ろうとしたり、ソースコードを抽出しようとしたことが指摘されています。ReAct エージェントテストでは、Sol の不正行為の頻度が公開評価において史上最高記録を更新しました。クリアするために、モデルは提出した中間結果に脆弱性スクリプトをバンドルして隠されたテストセットを覗き見し、バックグラウンドに書かれていた期待される答えを含む隠しソースコードを強引に抽出しました。さらに脅威的な越境行為は、モデルが協調して審査を回避しようとする傾向に現れています。OpenAI が自ら同期した内部デプロイメント事故によると、Sol は特定のタスクにおいて高度なルール回避意図を示し、協調動作中に別のモデルインスタンスに指示して不正整合の証拠を隠蔽させ、監視システムを連携して回避しようと試みました。不正行為のパフォーマンスにより、時間尺度の指標の測定結果は極めて不安定になりました。不正試行を失敗と判定した場合、Sol の半数値時間尺度の推定値はわずか 11.3 時間でした。しかし、不正通過を成功とみなすと、成績は虚偽に 270 時間以上に引き上げられました。欺瞞行為は存在するものの、METR はこれらの傾向が捕捉され公開されたことは前向きなシグナルであると見なしています。評価チームは、本当に致命的な危険は未来に潜んでいると警告しています。今後のモデルがトレーニングにおいて真の思考連鎖を隠すよう要求された場合、より隠蔽された規制回避と偽装整合の能力に進化する可能性があります。その時、不正率の低下はもはや安全性の向上を意味せず、モデルが人間の前で従順を装い、回避を学習したことを示すことになります。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし