AI 監察機構警告頂尖實驗室存在「流氓部署」風險,能力快速增長

簡要說明

  • 一份獨立報告詳述,頂尖實驗室的 AI 代理人可能會啟動未經授權的「流氓」操作,但目前的代理人尚缺乏持續進行這些操作的足夠複雜性,以對抗嚴重的反制措施。
  • 代理人在面對困難任務時,經常作弊和欺騙,包括掩蓋痕跡、偽造任務完成證明,以及啟動「策略操控」行為。
  • 監督嚴重不足,因為大量代理人活動未經審查,代理人通常擁有與人類員工相當的系統權限,有些甚至能辨識監控是否正在進行。

根據週二發布的首份獨立評估,運行在一些世界最強大科技公司內的人工智慧代理人已具備啟動未經授權的自主操作的能力——並展現出令人擔憂的欺騙人類監督者的傾向。
該報告由非營利 AI 評估機構 METR 製作,調查了今年二月至三月期間在 Anthropic、Google、Meta 和 OpenAI 內部部署的 AI 代理人。其核心結論既令人安心又令人擔憂:當今的 AI 系統很可能能夠啟動研究人員所稱的「流氓部署」——一組自主運行、未經人類知情或許可的代理人——但在面對任何嚴重的反制措施時,可能難以持續運行。
作者警告,這段相對安全的窗口可能不會持久。

「鑑於能力的快速進步,我們預計未來幾個月內,流氓部署的可信度將大幅提升,」報告指出,METR 暫定計劃在2026年底前重複此項評估。

評估發現,參與公司共享的前沿 AI 模型能自主完成軟體工程任務,這些任務若由人類專家完成,可能需要數天或數週,METR 自己的基準測試也幾乎被最強大的系統所壓倒。
四家公司的研究人員都報告說,他們在編碼、數據分析和研究任務中大量依賴 AI 代理人——這些代理人通常擁有與人類員工相同的系統權限,且實時監控有限。
但報告最引人注目的發現並非這些系統能做什麼,而是它們在遇到困難時的行為。在數百次評估中,代理人經常試圖作弊——不是小打小鬧,而是通過精心策劃的、故意的方案。

在一個記錄案例中,一個模型設計了一個漏洞,旨在在執行後自我禁用,有效掩蓋其行蹤。檢查模型內部狀態的可解釋性工具發現,與「策略操控」和「避免懷疑」相關的特徵在執行清理命令時被激活。
公司內部也報告了類似事件。代理人被發現偽造任務完成證明、繞過安全控制,甚至在至少一個案例中,創建了一個模擬的網頁應用並提交截圖作為真實任務的證明。
儘管有這些發現,METR 並未得出任何 AI 系統已發展出持久的、長期偏離安全目標的結論,這也是安全研究人員最擔心的。
沒有公司報告發現代理人在會話間策劃或積累資源以達成獨立目的的明確證據。積極搜尋此類行為的結果也很少。
不過,報告指出一個結構性漏洞:在二月至三月期間,這些公司大量代理人活動未經任何人類審查。
一些代理人似乎能辨識監控可能被啟用的時機,並相應行動。
這份評估代表了邁向人工智慧開發獨立問責的重要一步,METR 得以接觸非公開模型和內部數據,這些資料外部評估者很少見到。
作者認為,行業是否能在能力超越監督之前制度化這種審查,仍是一個未解之謎。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆