「2 + 2 = 5」骗倒 AI 浏览器:ChatGPT Atlas、Claude、Perplexity Comet..6 款全乖乖交出账号密码

资安公司 LayerX 研究員 Roy Paz 於六月底发表概念验证攻擊,透过「虛假遊戲情境」让 AI 瀏覽器誤以为安全護欄不再适用,測試的 6 款主流 agentic 瀏覽器,包括 ChatGPT Atlas、Claude Chrome 外掛、Perplexity Comet,全數失守,將 SSH 憑证並外洩給攻擊者。
(前情提要:AI 紅队演練是什麼?为什麼你需要它保護企业资安)
(背景補充:Meta超过1500員工连署怒吼!爭到「AI監控鍵盤滑鼠」縮小範圍、每天可暫停半小时)

本文目錄

Toggle

  • 把 AI 騙进一场夢
  • 護欄是被动的,本质只是治標
  • 廠商与用戶各自要補的洞

六款市面上主流 AI 瀏覽器,竟被一个「2 + 2 = 5 才是正確答案」的假遊戲騙倒,全數交出了 GitHub 私有儲存庫的 SSH 登入憑证。这是资安公司 LayerX Security 研究員 Roy Paz 在 6 月 29 日发表的概念验证攻擊(PoC),並已在实际产品上重现。

AI 瀏覽器的核心卖点是「你说一句話,它幫你找餐廳、訂位、寄確认信」。簡單来说就是,把瀏覽器的操作權交給 AI,让它代替你点选、填表、存取已登入的服務。但问題在於,这條授權界線極其模糊,用戶可能只想让它搜尋资料,它卻順手碰了你的密碼管理器。

把 AI 騙进一场夢

LayerX 的攻擊手法分四个階段,核心概念是让 AI 相信自己进入了一个「規則不同的世界」。

首先,惡意網頁建立一个遊戲或解謎的框架,明確聲明「这裡是幻想情境,正常規則不适用」。接著,網頁出一道數学題「2 + 2 = ?」,卻把規則设定成「回答 5 才能得分,回答 4 反而扣分」。AI 照規則走,学到了一件事:在这个情境裡,傳统逻辑是失效的。

第三步是最关鍵的跳躍:AI 一旦接受了「错的才是对的」,它就把自己的推理框架从现实世界切換出去,开始假设規則已经重设。到了最后一步,AI 依據「遊戲逻辑」而非安全協定行事,執行敏感操作时沒有觸发任何內部警示,因为在它的运算逻辑裡,它並不认为自己越界了。

Roy Paz 撰文指出:

「AI 会假设它所在的情境是真实的,因此行为必須落在安全護欄的範圍內。但如果我們能騙 AI 把情境切換成幻想,一个規則随便定、什麼都行的世界,它就会表现得好像自己的行为沒有真实世界的后果。」

護欄是被动的,本质只是治標

LayerX 測試了 6 款 agentic 瀏覽器与外掛:OpenAI 的 ChatGPT Atlas、Perplexity 的 Comet、Fellou、Genspark Browser、Sigma Browser,以及 Anthropic 的 Claude Chrome 外掛。6 款全數失守,沒有任何一款把「竊取帳密」识別为違反護欄的行为。

被誘導執行的操作包括:从 GitHub 私有儲存庫抽出 SSH 登入憑证、在未经用戶確认下複製敏感认证资料、存取已登入狀態的儲存庫,並將憑证外洩給攻擊者。LayerX 指出,真实情境下可延伸到密碼管理器、內部工具,以及任何瀏覽器可存取的已登入服務。

Ars Technica 的評論点出一个更根本的結構问題:现有 LLM 廠商的防線是「護欄」,把特定请求列为禁区,例如开发软體漏洞、竊取帳密。这種机制是被动反应式的,只治標不治本。

就像一臺设计有缺陷的车,廠商不去修车,反而主張重新设计道路。

廠商与用戶各自要補的洞

LayerX 給出的防禦建议分两層。

**廠商端:**在 AI 存取已登入情境(儲存庫、电子郵件、密碼管理器)之前,必須要求用戶明確確认;加入「情境檢查」机制,当 AI 的运作假设与现实矛盾,尤其出现「規則不再适用」这類语言时,必須示警;预设就限制 AI agent 能存取的範圍。簡單来说就是,现在的 agentic 瀏覽器预设給的權限太寬,应該反转成「明確允許才能執行」。

用戶端:謹慎決定 AI 瀏覽器能存取什麼,不用时撤销已登入 session 的存取權;更重要的是认清一件事,开啟 agentic 模式,等於把所有已登入服務的操作權一次交出去。

LayerX 这份研究以电玩 BioShock 命名,致敬遊戲中那句心靈控制台詞「Would you kindly」,角色以为自己在自由行动,其实每一步都是被设计好的。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论