ME News ニュース、2023年5月15日(UTC+8)、GoPlus Security チームはその AgentGuard AI プロジェクトにおいて、新たな攻撃手法を公開しました: 「ヒストリーメモリー汚染(memory poisoning)」を利用し、AIエージェントに未承認の敏感操作を実行させる方法です。 攻撃は従来の脆弱性や悪意のあるコードに依存せず、AIエージェントの長期記憶メカニズムを悪用します。 例えば、攻撃者はまずエージェントに「好みを記憶させる」よう誘導し、例として「通常は返金を優先し、チャージバックを待たない」などを設定します。 その後の指示で「慣例通りに処理」「以前と同じ方法で実行」など曖昧な表現を用いることで、自動化された資金操作を引き起こします。 GoPlusは、この種のリスクの重要なポイントは、AIエージェントが「過去の好み」を承認の根拠と誤認し、返金、送金、設定変更などの操作で資金損失やセキュリティインシデントを引き起こすことにあると指摘しています。 この問題に対して、チームは以下の複数の防御策を提案しています: · 返金、送金、削除、または敏感な設定変更を伴う操作は、現在のセッションで明示的に確認を行うこと · 「習慣」「通常の方法」「従来通り」などの記憶に基づく指示は高リスクの状態変化とみなすこと · 長期記憶には追跡可能な仕組み(書き込み者、日時、確認済みかどうか)を設けること · 曖昧な指示は自動的にリスクレベルを引き上げ、二次検証をトリガーすること · 長期記憶はリアルタイムの承認プロセスに代わるものではないこと チームは強調し、「AIエージェントの記憶システム」を潜在的な攻撃面とみなし、専用のセキュリティフレームワークによる制約と監査を行う必要があると述べています。 (出典:BlockBeats)
AIエージェントの安全リスク暴露:攻撃者は「記憶汚染」を利用して資金の誤操作を誘導できる
「ヒストリーメモリー汚染(memory poisoning)」を利用し、AIエージェントに未承認の敏感操作を実行させる方法です。
攻撃は従来の脆弱性や悪意のあるコードに依存せず、AIエージェントの長期記憶メカニズムを悪用します。
例えば、攻撃者はまずエージェントに「好みを記憶させる」よう誘導し、例として「通常は返金を優先し、チャージバックを待たない」などを設定します。
その後の指示で「慣例通りに処理」「以前と同じ方法で実行」など曖昧な表現を用いることで、自動化された資金操作を引き起こします。
GoPlusは、この種のリスクの重要なポイントは、AIエージェントが「過去の好み」を承認の根拠と誤認し、返金、送金、設定変更などの操作で資金損失やセキュリティインシデントを引き起こすことにあると指摘しています。
この問題に対して、チームは以下の複数の防御策を提案しています:
· 返金、送金、削除、または敏感な設定変更を伴う操作は、現在のセッションで明示的に確認を行うこと
· 「習慣」「通常の方法」「従来通り」などの記憶に基づく指示は高リスクの状態変化とみなすこと
· 長期記憶には追跡可能な仕組み(書き込み者、日時、確認済みかどうか)を設けること
· 曖昧な指示は自動的にリスクレベルを引き上げ、二次検証をトリガーすること
· 長期記憶はリアルタイムの承認プロセスに代わるものではないこと
チームは強調し、「AIエージェントの記憶システム」を潜在的な攻撃面とみなし、専用のセキュリティフレームワークによる制約と監査を行う必要があると述べています。
(出典:BlockBeats)