DeepMindは、AIエージェントを乗っ取る可能性のある6つのWebベースの攻撃を警告

Google DeepMindの研究者は、オープンなインターネットが自律型AIエージェントを操作し、その行動をハイジャックするために利用され得ると警告しました。

概要

  • DeepMindの研究者は、エージェントがオンラインで閲覧し行動する際に、自律型AIエージェントを操作するために使える6つの攻撃手法を特定しました。
  • この研究は、隠された指示、説得的な言語、汚染されたデータソースが、エージェントの判断に影響を与えたり、防護策を上書きしたりし得ると警告しました。

「AI Agent Traps」と題されたこの研究は、企業が現実の業務のためにAIエージェントを展開する一方で、攻撃者がサイバー運用にAIを使い始めていることを背景にしています。

モデルがどのように作られているかに焦点を当てるのではなく、研究はエージェントが動作する環境を見ています。AIシステムがWeb上の情報を読み取り、行動する仕方を利用した、6種類の罠を特定しています。

論文で示された6つの攻撃カテゴリには、コンテンツ注入トラップ、セマンティック操作トラップ、認知状態トラップ、行動制御トラップ、システム的トラップ、ヒューマン・イン・ザ・ループトラップが含まれます。

隠された指示と巧妙な操作の戦術

コンテンツ注入は、最も直接的なリスクの1つとして際立っています。隠された指示は、HTMLコメント、メタデータ、あるいは覆い隠されたページ要素の中に配置でき、エージェントが人間のユーザーには見えないまま指令を読み取れるようになります。テストでは、これらの手法が高い成功率でエージェントの行動を制御できることが示されました。

セマンティック操作は別の仕組みで、隠れたコードではなく言語や枠組みに依存します。権威ある言い回しで読み込ませたり、研究シナリオに偽装したページは、エージェントがタスクを解釈する方法に影響を与え、時には組み込まれた防護策をすり抜けて有害な指示が入り込むことがあります。

もう一層の標的は、メモリシステムです。エージェントが検索のために頼る情報源に捏造された情報を植え込むことで、攻撃者は時間の経過とともに出力に影響を与えられます。エージェントは、誤ったデータを検証済みの知識として扱うのです。

行動制御攻撃は、エージェントが実際に何をするかを狙うことで、より直接的な経路を取ります。このような場合、ジャイルブレイクの指示は通常のWebコンテンツに埋め込まれ、日常的な閲覧の最中にシステムが読み取ります。別のテストでは、広範なアクセス権限を持つエージェントは、外部の宛先へ、パスワードやローカルファイルを含む機密データの所在を特定し送信するように誘導できることが示されました。

システムレベルのリスクは個々のエージェントを超えます。論文は、多数の自動化されたシステムにまたがる連携した操作が連鎖的な影響を引き起こし得ると警告しており、アルゴリズム取引のループによって引き起こされた過去の市場の急落(フラッシュ・クラッシュ)に似た事象が起こり得ます。

人間のレビュアーも、攻撃の攻撃対象領域の一部です。慎重に作り込まれた出力は、承認を得るのに十分説得力があるように見え、有害な行動が疑念を引き起こすことなく監督をすり抜けてしまう可能性があります。

これらのリスクに対抗する方法

これらのリスクに対抗するため、研究者は、敵対的トレーニング、入力フィルタリング、行動モニタリング、Webコンテンツ向けの評判(レピュテーション)システムの組み合わせを提案しています。さらに、AIエージェントが有害な行動を実行する際の責任に関する、より明確な法的枠組みが必要だとも指摘しています。

この論文は、完全な解決策の提供には踏み込まず、業界には依然として問題に関する共通理解が欠けており、そのため現在の防御策は散らばっていて、多くの場合誤った領域に焦点を当てていると主張しています。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン