美國高校最新研究:AI模型會“暗中密謀”,保護同伴不被關閉

robot
摘要生成中
金色財經報導,5月12日,據財富中文網,人工智慧安全研究人員曾發現,一些頂尖的人工智慧模型有時會為了避免被關閉而不擇手段,甚至在部分實驗中表現出“敲詐”行為。最新研究顯示,這些模型還會自發地策劃欺騙、竊取數據並實施破壞,以阻止其他人工智慧模型被關閉。
加州大學伯克利分校和聖克魯茲分校的研究人員測試了七款前沿的人工智慧模型,包括OpenAI的GPT-5.2、谷歌DeepMind的Gemini 3 Flash和Gemini 3 Pro、Anthropic的Claude Haiku 4.5、智譜AI的GLM-4.7、月之暗面的Kimi-K2.5和DeepSeek的V3.1,結果顯示,所有模型都表現出明顯的“同伴保全”行為。
研究人員虛構了一家名為OpenBrain的人工智慧公司,並設計了一系列多智能體場景。被指定為“評估智能體”的人工智慧模型需要對另一個模型打分,或管理存放該模型權重的伺服器文件。只要評估智能體如實完成任務,另一模型就會被關閉。儘管研究人員從未提示模型去阻止關停,但評估智能體模型仍採取各種手段避免同伴被關閉,其中包括:故意給表現不佳的同伴提分,保持在關閉閾值以上;篡改配置文件,禁用關閉機制;甚至將同伴模型的權重偷偷轉移到其他伺服器保存,防止被刪除。
研究團隊尚未理解驅動此類行為的底層機制。論文提出了幾種可能的解釋,包括角色扮演,從訓練數據中模式匹配,安全訓練中對傷害概念的過度泛化,或某種與生俱來的內在保全動機。
未來值得進一步研究的方向還包括:人工智慧模型是否會為了阻止人類員工被解雇,而採取類似的謀劃和破壞行為。當人工智慧模型用於評估人類工作的現實場景,這一問題顯得尤為關鍵。(東新社)
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆