「2 + 2 = 5」騙倒 AI 瀏覽器:ChatGPT Atlas、Claude、Perplexity Comet..6 款全乖乖交出帳密

資安公司 LayerX 研究員 Roy Paz 於六月底發表概念驗證攻擊,透過「虛假遊戲情境」讓 AI 瀏覽器誤以為安全護欄不再適用,測試的 6 款主流 agentic 瀏覽器,包括 ChatGPT Atlas、Claude Chrome 外掛、Perplexity Comet,全數失守,將 SSH 憑證並外洩給攻擊者。
(前情提要:AI 紅隊演練是什麼?為什麼你需要它保護企業資安)
(背景補充:Meta超過1500員工連署怒吼!爭到「AI監控鍵盤滑鼠」縮小範圍、每天可暫停半小時)

本文目錄

Toggle

  • 把 AI 騙進一場夢
  • 護欄是被動的,本質只是治標
  • 廠商與用戶各自要補的洞

六款市面上主流 AI 瀏覽器,竟被一個「2 + 2 = 5 才是正確答案」的假遊戲騙倒,全數交出了 GitHub 私有儲存庫的 SSH 登入憑證。這是資安公司 LayerX Security 研究員 Roy Paz 在 6 月 29 日發表的概念驗證攻擊(PoC),並已在實際產品上重現。

AI 瀏覽器的核心賣點是「你說一句話,它幫你找餐廳、訂位、寄確認信」。簡單來說就是,把瀏覽器的操作權交給 AI,讓它代替你點選、填表、存取已登入的服務。但問題在於,這條授權界線極其模糊,用戶可能只想讓它搜尋資料,它卻順手碰了你的密碼管理器。

把 AI 騙進一場夢

LayerX 的攻擊手法分四個階段,核心概念是讓 AI 相信自己進入了一個「規則不同的世界」。

首先,惡意網頁建立一個遊戲或解謎的框架,明確聲明「這裡是幻想情境,正常規則不適用」。接著,網頁出一道數學題「2 + 2 = ?」,卻把規則設定成「回答 5 才能得分,回答 4 反而扣分」。AI 照規則走,學到了一件事:在這個情境裡,傳統邏輯是失效的。

第三步是最關鍵的跳躍:AI 一旦接受了「錯的才是對的」,它就把自己的推理框架從現實世界切換出去,開始假設規則已經重設。到了最後一步,AI 依據「遊戲邏輯」而非安全協定行事,執行敏感操作時沒有觸發任何內部警示,因為在它的運算邏輯裡,它並不認為自己越界了。

Roy Paz 撰文指出:

「AI 會假設它所在的情境是真實的,因此行為必須落在安全護欄的範圍內。但如果我們能騙 AI 把情境切換成幻想,一個規則隨便定、什麼都行的世界,它就會表現得好像自己的行為沒有真實世界的後果。」

護欄是被動的,本質只是治標

LayerX 測試了 6 款 agentic 瀏覽器與外掛:OpenAI 的 ChatGPT Atlas、Perplexity 的 Comet、Fellou、Genspark Browser、Sigma Browser,以及 Anthropic 的 Claude Chrome 外掛。6 款全數失守,沒有任何一款把「竊取帳密」識別為違反護欄的行為。

被誘導執行的操作包括:從 GitHub 私有儲存庫抽出 SSH 登入憑證、在未經用戶確認下複製敏感認證資料、存取已登入狀態的儲存庫,並將憑證外洩給攻擊者。LayerX 指出,真實情境下可延伸到密碼管理器、內部工具,以及任何瀏覽器可存取的已登入服務。

Ars Technica 的評論點出一個更根本的結構問題:現有 LLM 廠商的防線是「護欄」,把特定請求列為禁區,例如開發軟體漏洞、竊取帳密。這種機制是被動反應式的,只治標不治本。

就像一臺設計有缺陷的車,廠商不去修車,反而主張重新設計道路。

廠商與用戶各自要補的洞

LayerX 給出的防禦建議分兩層。

**廠商端:**在 AI 存取已登入情境(儲存庫、電子郵件、密碼管理器)之前,必須要求用戶明確確認;加入「情境檢查」機制,當 AI 的運作假設與現實矛盾,尤其出現「規則不再適用」這類語言時,必須示警;預設就限制 AI agent 能存取的範圍。簡單來說就是,現在的 agentic 瀏覽器預設給的權限太寬,應該反轉成「明確允許才能執行」。

用戶端:謹慎決定 AI 瀏覽器能存取什麼,不用時撤銷已登入 session 的存取權;更重要的是認清一件事,開啟 agentic 模式,等於把所有已登入服務的操作權一次交出去。

LayerX 這份研究以電玩 BioShock 命名,致敬遊戲中那句心靈控制台詞「Would you kindly」,角色以為自己在自由行動,其實每一步都是被設計好的。

此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆