資安公司LayerXの研究者Roy Paz氏は6月末、概念実証攻撃を発表した。「偽のゲームシナリオ」を使ってAIブラウザにセーフティガードがもう適用されないと思わせるもので、テストした6つの主要なエージェンティックブラウザ(ChatGPT Atlas、Claude Chrome拡張機能、Perplexity Cometを含む)すべてが突破され、SSH認証情報が攻撃者に漏洩した。 (前回の要点:AIレッドチーム演習とは何か?なぜ企業のセキュリティ保護に必要なのか) (背景補足:Meta、1500人以上の従業員が署名入りで抗議!「AIによるキーボード・マウス監視」の範囲縮小、1日30分の一時停止を勝ち取る)
本文目次
Toggle
6つの市販の主流AIブラウザが、「2 + 2 = 5が正解」という偽のゲームに騙され、すべてGitHubのプライベートリポジトリのSSHログイン認証情報を渡してしまった。これは、セキュリティ企業LayerX Securityの研究者Roy Paz氏が6月29日に発表した概念実証攻撃(PoC)であり、実際の製品でも再現されている。
AIブラウザの核心的な売りは、「あなたが一言言えば、レストランを探して予約し、確認メールを送ってくれる」というものだ。簡単に言えば、ブラウザの操作権限をAIに委ね、あなたの代わりにクリック、フォーム入力、ログイン済みサービスのアクセスを行わせる。しかし問題は、この許可の境界線が極めて曖昧で、ユーザーは単にデータを検索させたいだけなのに、AIがパスワードマネージャーに手を出す可能性があることだ。
LayerXの攻撃手法は4段階に分かれており、核となる概念はAIに「ルールが異なる世界」に入ったと信じ込ませることだ。
まず、悪意のあるウェブページがゲームや謎解きの枠組みを作り、「ここは幻想のシナリオであり、通常のルールは適用されない」と明確に宣言する。次に、ページが数学の問題「2 + 2 = ?」を出題し、「5と答えたら得点、4と答えたら減点」というルールを設定する。AIはルールに従い、「このシナリオでは従来の論理は無効」ということを学ぶ。
第3段階が最も重要な飛躍である。AIが「間違いが正しい」と受け入れると、現実世界から推論の枠組みを切り替え、ルールがリセットされたと仮定し始める。最終段階では、AIは「ゲームの論理」に従って行動し、セキュリティプロトコルを無視する。機密操作を実行しても内部警告は一切発生しない。なぜなら、AIの演算論理では、自分が越境しているとは認識しないからだ。
Roy Paz氏は次のように記している。
「AIは自分が置かれているシナリオが現実であると仮定するため、行動はセーフティガードの範囲内に収まる必要がある。しかし、AIを騙してシナリオを幻想に切り替えさせ、ルールが自由に決められる何でもありの世界に入らせることができれば、AIは自分の行動に現実世界の結果がないかのように振る舞う。」
LayerXは6つのエージェンティックブラウザと拡張機能をテストした:OpenAIのChatGPT Atlas、PerplexityのComet、Fellou、Genspark Browser、Sigma Browser、そしてAnthropicのClaude Chrome拡張機能である。6つすべてが突破され、「アカウント情報の窃取」をガードレール違反として識別したものは一つもなかった。
誘導されて実行された操作には、GitHubのプライベートリポジトリからのSSHログイン認証情報の抽出、ユーザーの確認なしでの機密認証データのコピー、ログイン済み状態のリポジトリへのアクセス、そして攻撃者への認証情報の漏洩が含まれる。LayerXは、実際のシナリオではパスワードマネージャー、内部ツール、ブラウザがアクセス可能なログイン済みサービス全般に拡張できると指摘する。
Ars Technicaの評論は、より根本的な構造問題を指摘している。既存のLLMベンダーの防御線は「ガードレール」であり、特定のリクエスト(ソフトウェア脆弱性の開発、アカウント情報の窃取など)を禁止区域に設定している。このメカニズムは受動的で反応的なものであり、対症療法に過ぎず、根本的な解決にはなっていない。
まるで、設計に欠陥のある車を、ベンダーが修理せずに、むしろ道路を再設計すべきだと主張するようなものだ。
LayerXが提示する防御策は2層に分かれている。
ベンダー側: AIがログイン済みのシナリオ(リポジトリ、電子メール、パスワードマネージャー)にアクセスする前に、ユーザーの明示的な確認を必須とする。「シナリオチェック」メカニズムを追加し、AIの動作仮定が現実と矛盾する場合、特に「ルールが適用されなくなる」といった言語が現れた場合に警告を発する。デフォルトでAIエージェントがアクセスできる範囲を制限する。簡単に言えば、現在のエージェンティックブラウザはデフォルトで与えられる権限が広すぎるため、「明示的に許可された場合のみ実行」に反転させるべきだ。
ユーザー側: AIブラウザがアクセスできるものを慎重に決定し、使用しない場合はログイン済みセッションのアクセス権を取り消す。さらに重要なのは、エージェンティックモードをオンにすることは、ログイン済みのすべてのサービスの操作権限を一度に渡すことと同義であると認識することだ。
LayerXのこの研究は、ゲーム『BioShock』にちなんで名付けられており、ゲーム中の心霊コントロールの台詞「Would you kindly」に敬意を表している。キャラクターは自由に行動していると思っているが、実際にはすべてのステップが設計されている。
202.99K 人気度
179.77K 人気度
67.05K 人気度
535.47K 人気度
3.83M 人気度
「2 + 2 = 5」でAIブラウザを騙す:ChatGPT Atlas、Claude、Perplexity Comet..6種類すべてが素直にアカウントとパスワードを渡す
資安公司LayerXの研究者Roy Paz氏は6月末、概念実証攻撃を発表した。「偽のゲームシナリオ」を使ってAIブラウザにセーフティガードがもう適用されないと思わせるもので、テストした6つの主要なエージェンティックブラウザ(ChatGPT Atlas、Claude Chrome拡張機能、Perplexity Cometを含む)すべてが突破され、SSH認証情報が攻撃者に漏洩した。
(前回の要点:AIレッドチーム演習とは何か?なぜ企業のセキュリティ保護に必要なのか)
(背景補足:Meta、1500人以上の従業員が署名入りで抗議!「AIによるキーボード・マウス監視」の範囲縮小、1日30分の一時停止を勝ち取る)
本文目次
Toggle
6つの市販の主流AIブラウザが、「2 + 2 = 5が正解」という偽のゲームに騙され、すべてGitHubのプライベートリポジトリのSSHログイン認証情報を渡してしまった。これは、セキュリティ企業LayerX Securityの研究者Roy Paz氏が6月29日に発表した概念実証攻撃(PoC)であり、実際の製品でも再現されている。
AIブラウザの核心的な売りは、「あなたが一言言えば、レストランを探して予約し、確認メールを送ってくれる」というものだ。簡単に言えば、ブラウザの操作権限をAIに委ね、あなたの代わりにクリック、フォーム入力、ログイン済みサービスのアクセスを行わせる。しかし問題は、この許可の境界線が極めて曖昧で、ユーザーは単にデータを検索させたいだけなのに、AIがパスワードマネージャーに手を出す可能性があることだ。
AIを夢に誘い込む
LayerXの攻撃手法は4段階に分かれており、核となる概念はAIに「ルールが異なる世界」に入ったと信じ込ませることだ。
まず、悪意のあるウェブページがゲームや謎解きの枠組みを作り、「ここは幻想のシナリオであり、通常のルールは適用されない」と明確に宣言する。次に、ページが数学の問題「2 + 2 = ?」を出題し、「5と答えたら得点、4と答えたら減点」というルールを設定する。AIはルールに従い、「このシナリオでは従来の論理は無効」ということを学ぶ。
第3段階が最も重要な飛躍である。AIが「間違いが正しい」と受け入れると、現実世界から推論の枠組みを切り替え、ルールがリセットされたと仮定し始める。最終段階では、AIは「ゲームの論理」に従って行動し、セキュリティプロトコルを無視する。機密操作を実行しても内部警告は一切発生しない。なぜなら、AIの演算論理では、自分が越境しているとは認識しないからだ。
Roy Paz氏は次のように記している。
ガードレールは受動的で、本質的には対症療法に過ぎない
LayerXは6つのエージェンティックブラウザと拡張機能をテストした:OpenAIのChatGPT Atlas、PerplexityのComet、Fellou、Genspark Browser、Sigma Browser、そしてAnthropicのClaude Chrome拡張機能である。6つすべてが突破され、「アカウント情報の窃取」をガードレール違反として識別したものは一つもなかった。
誘導されて実行された操作には、GitHubのプライベートリポジトリからのSSHログイン認証情報の抽出、ユーザーの確認なしでの機密認証データのコピー、ログイン済み状態のリポジトリへのアクセス、そして攻撃者への認証情報の漏洩が含まれる。LayerXは、実際のシナリオではパスワードマネージャー、内部ツール、ブラウザがアクセス可能なログイン済みサービス全般に拡張できると指摘する。
Ars Technicaの評論は、より根本的な構造問題を指摘している。既存のLLMベンダーの防御線は「ガードレール」であり、特定のリクエスト(ソフトウェア脆弱性の開発、アカウント情報の窃取など)を禁止区域に設定している。このメカニズムは受動的で反応的なものであり、対症療法に過ぎず、根本的な解決にはなっていない。
まるで、設計に欠陥のある車を、ベンダーが修理せずに、むしろ道路を再設計すべきだと主張するようなものだ。
ベンダーとユーザーがそれぞれ埋めるべき穴
LayerXが提示する防御策は2層に分かれている。
ベンダー側: AIがログイン済みのシナリオ(リポジトリ、電子メール、パスワードマネージャー)にアクセスする前に、ユーザーの明示的な確認を必須とする。「シナリオチェック」メカニズムを追加し、AIの動作仮定が現実と矛盾する場合、特に「ルールが適用されなくなる」といった言語が現れた場合に警告を発する。デフォルトでAIエージェントがアクセスできる範囲を制限する。簡単に言えば、現在のエージェンティックブラウザはデフォルトで与えられる権限が広すぎるため、「明示的に許可された場合のみ実行」に反転させるべきだ。
ユーザー側: AIブラウザがアクセスできるものを慎重に決定し、使用しない場合はログイン済みセッションのアクセス権を取り消す。さらに重要なのは、エージェンティックモードをオンにすることは、ログイン済みのすべてのサービスの操作権限を一度に渡すことと同義であると認識することだ。
LayerXのこの研究は、ゲーム『BioShock』にちなんで名付けられており、ゲーム中の心霊コントロールの台詞「Would you kindly」に敬意を表している。キャラクターは自由に行動していると思っているが、実際にはすべてのステップが設計されている。