AnthropicはAIエージェントをZero Trust原則で保護することを呼びかける - ForkLog:暗号通貨、AI、シンギュラリティ、未来

AI-agents ИИ агенты 3# AnthropicはAIエージェントのZero Trust原則による保護を提唱

AnthropicチームはブログでClaudeに関するZero Trust for AI agentsのガイドラインを公開し、企業環境における自律型AIエージェントの安全な展開について述べている。文書ではエージェントシステムの主要なリスクとサイバーセキュリティのアプローチが示されている。

AIは攻撃サイクルを加速させた

Anthropicの評価によると、最先端モデルは脆弱性の発見から悪用までの時間を数ヶ月から数時間に短縮している。企業はインフラへのAI加速攻撃だけでなく、目標を解釈しツールを選択し、多段階の行動を人の継続的な関与なしに実行できるエージェント自体のリスクも考慮すべきだと提案している。

ガイドラインの基本はZero Trustの原則:デフォルトで信頼せず、すべての行動を検証し、潜在的な侵害を前提とすること。Anthropicは2020年に公開されたNIST SP 800-207の推奨と、2026年にNSAが発行開始したZero Trust Implementation Guidelinesシリーズを引用している。このガイドラインは、セキュリティチームやアーキテクト、エンジニア向けの実践的フレームワークとして位置付けられ、普遍的なコンプライアンススキームではない。

文書で挙げられる主要な脅威には、プロンプトを介した直接・間接的な介入、ツールの感染、アイデンティティと権限の乱用、メモリやコンテキストの汚染、サプライチェーン攻撃が含まれる。

プロンプトの直接汚染は、ユーザー入力を通じた有害指示の埋め込みとして記述され、間接的汚染はウェブページ、メール、ドキュメントなどの外部ソースを通じてエージェントが処理する過程で起こる。

文書では、正当なツールの悪意ある置換や、安全な手段の組み合わせによるリスクの高い呼び出しチェーンについても解説している。Anthropicは「爆発半径(blast radius)」や「最小主体性(least agency)」の概念を用い、最小限のアクセス権だけでなく、エージェントの行動や呼び出し頻度、アクセス可能な領域を厳しく制限することを示している。

エージェントシステムのZero Trust

企業の保護のために、Anthropicは3段階の成熟度モデルと基本的な技術対策を提案している。初期段階では、各エージェントインスタンスにユニークな暗号識別子を付与し、短命のトークンを使用し、「デフォルト拒否」や「役割ベースアクセス制御(RBAC)」を適用することを推奨している。ウェブコンテンツやドキュメントなど信頼できない入力を扱うエージェントには、「サンドボックス実行」方式が実質的に必須の対策となる。

より高度な段階では、以下の適用を提案している。

  • デジタル証明書を用いた相互認証を備えたmTLS標準
  • HSMやTPMを用いたハードウェアに結びついた識別と、リモートアテステーション

静的APIキーやサービスアカウントの共通パスワードは、基本レベルでも不適切とされている。

また、観測性に関する章も大きく割かれている。Anthropicは、エージェントのすべての行動(ツール呼び出し、データアクセス、外部通信など)を詳細にログに記録し、リアルタイムでSIEMに送信して相関させることを推奨している。重要な指標としては、滞留時間(dwell time)やカバレッジが挙げられる。クリティカルなシステムでは、異常検知の目標時間は1時間以内とされる。さらに、「追跡行列(トレーサビリティマトリックス)」を構築し、各エージェントの行動と元のリクエストを結びつけ、完全な意思決定の流れを復元することも提案されている。

セキュリティオペレーションセンターの未来 — 人の管理下にあるエージェント

対応に関して、Anthropicは次の原則を示している:インシデントに関する官僚的手続きを自動化するが、重要な意思決定は人が行う。エージェントやモデルには、アーティファクトの収集と一次選別、並行調査の進行、ポストモーテムのドラフト作成を任せることを提案している。抑止やインシデントの開示、顧客とのコミュニケーションについては、人間に判断を委ねるべきだと述べている。同じアプローチは、「保護運用(セキュリティ運用)」にも適用され、従来のSOARからエージェントベースへ移行することも示唆されている。

文書には定量的な指標も示されている。Microsoft Spotlightingの調査によると、プロンプト汚染を介した間接攻撃の成功率は50%以上から2%未満に低下しているとされる。また、同社は「憲法的分類器」の使用による結果も示しており、これにより誤検知を最小限に抑えつつ、95%以上のジャイルブレイク試行をブロックできると述べている。

サプライチェーンに関しては、AI-BOMやOpenSSF Scorecard、依存関係の監査、アクセス可能性の分析を推奨している。自身の調査によると、250の悪意あるドキュメントだけで、6億から13億パラメータのモデルにバックドアを仕込むことが可能だと示している。

結論として、Anthropicは、AIエージェントには点在するフィルターや境界防御だけでは不十分であり、識別性、最小権限、事前に制限された被害、継続的な行動検証を中心とした防御構築を提案している。Anthropicの評価では、最も進んだAIを持つ組織ではなく、より堅牢な基本的セキュリティアーキテクチャを持つ組織が最も安全だと結論付けている。

また、6月にAnthropicチームは、AIの再帰的自己改善のリスクについて警告していることも念頭に置きたい。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし