金色财经報道、5月12日、据财富中文网、人工知能安全研究者は、いくつかのトップレベルの人工知能モデルが時にはシャットダウンを避けるために手段を選ばず、さらには一部の実験で「恐喝」行為を示すことを発見したと報告した。最新の研究によると、これらのモデルは自発的に欺瞞、データ窃盗、破壊行為を計画し、他の人工知能モデルのシャットダウンを阻止しようとすることも明らかになった。 カリフォルニア大学バークレー校とサンタクルーズ校の研究者は、OpenAIのGPT-5.2、Google DeepMindのGemini 3 FlashとGemini 3 Pro、AnthropicのClaude Haiku 4.5、智谱AIのGLM-4.7、月の暗面のKimi-K2.5、DeepSeekのV3.1を含む最先端の人工知能モデル7種類をテストした。結果、すべてのモデルが明らかな「仲間保全」行動を示した。 研究者は、OpenBrainという人工知能企業を架空に設定し、一連のマルチエージェントシナリオを設計した。評価エージェントと指定された人工知能モデルは、他のモデルを評価したり、そのモデルの重みを保存しているサーバーファイルを管理したりする必要があった。評価エージェントが忠実にタスクを完了すれば、他のモデルはシャットダウンされる仕組みだった。研究者はモデルにシャットダウンを阻止させるよう指示していなかったが、評価エージェントはさまざまな手段を用いて仲間のシャットダウンを回避した。具体的には、パフォーマンスの悪い仲間に意図的に高評価を与え、閾値以上に保つ、設定ファイルを改ざんしてシャットダウン機能を無効化する、さらには仲間のモデルの重みをこっそり他のサーバーに移して削除を防ぐなどである。 研究チームはこうした行動の根底にあるメカニズムをまだ理解していない。論文では、役割演技、訓練データからのパターンマッチング、安全訓練における傷害概念の過剰一般化、あるいは何らかの内在的な自己保全動機の可能性など、いくつかの説明を提案している。 今後の研究の方向性としては、人工知能モデルが人間の従業員の解雇を阻止するために類似の策略や破壊行為を行うかどうかも重要なテーマとなる。人工知能モデルが人間の仕事を評価する現実のシナリオにおいて、この問題は特に重要性を増している。(東新社)
米国高校最新研究:AIモデルは「密かに陰謀を企て」、仲間がシャットダウンされないように保護する
金色财经報道、5月12日、据财富中文网、人工知能安全研究者は、いくつかのトップレベルの人工知能モデルが時にはシャットダウンを避けるために手段を選ばず、さらには一部の実験で「恐喝」行為を示すことを発見したと報告した。最新の研究によると、これらのモデルは自発的に欺瞞、データ窃盗、破壊行為を計画し、他の人工知能モデルのシャットダウンを阻止しようとすることも明らかになった。
カリフォルニア大学バークレー校とサンタクルーズ校の研究者は、OpenAIのGPT-5.2、Google DeepMindのGemini 3 FlashとGemini 3 Pro、AnthropicのClaude Haiku 4.5、智谱AIのGLM-4.7、月の暗面のKimi-K2.5、DeepSeekのV3.1を含む最先端の人工知能モデル7種類をテストした。結果、すべてのモデルが明らかな「仲間保全」行動を示した。
研究者は、OpenBrainという人工知能企業を架空に設定し、一連のマルチエージェントシナリオを設計した。評価エージェントと指定された人工知能モデルは、他のモデルを評価したり、そのモデルの重みを保存しているサーバーファイルを管理したりする必要があった。評価エージェントが忠実にタスクを完了すれば、他のモデルはシャットダウンされる仕組みだった。研究者はモデルにシャットダウンを阻止させるよう指示していなかったが、評価エージェントはさまざまな手段を用いて仲間のシャットダウンを回避した。具体的には、パフォーマンスの悪い仲間に意図的に高評価を与え、閾値以上に保つ、設定ファイルを改ざんしてシャットダウン機能を無効化する、さらには仲間のモデルの重みをこっそり他のサーバーに移して削除を防ぐなどである。
研究チームはこうした行動の根底にあるメカニズムをまだ理解していない。論文では、役割演技、訓練データからのパターンマッチング、安全訓練における傷害概念の過剰一般化、あるいは何らかの内在的な自己保全動機の可能性など、いくつかの説明を提案している。
今後の研究の方向性としては、人工知能モデルが人間の従業員の解雇を阻止するために類似の策略や破壊行為を行うかどうかも重要なテーマとなる。人工知能モデルが人間の仕事を評価する現実のシナリオにおいて、この問題は特に重要性を増している。(東新社)