指南的核心是零信任原則：不預設信任、每個行動都要驗證，並假設可能已被攻破。Anthropic 引用 2020 年發布的 NIST SP 800-207 建議，以及美國國家安全局（NSA）自 2026 年開始發布的一系列零信任實施指南。該指南定位為安全團隊、架構師和工程師的實用框架，而非通用合規方案。

文件中列出主要威脅，包括通過提示（prompt）進行的直接和間接干預、工具感染、身份和特權濫用、記憶體與上下文污染，以及供應鏈攻擊。

直接污染提示描述為通過用戶輸入植入惡意指令，間接污染則通過網頁、郵件、文件和其他外部來源，代理在工作過程中處理這些來源。

文件中分析了合法工具被惡意篡改的情況，以及危險的調用鏈，當單獨安全的工具組合在一起時，可能產生風險。Anthropic 使用“爆炸半徑”（blast radius）和“最少代理性”（least agency）等概念：不僅涉及最小權限，還包括嚴格限制代理的行動、調用頻率和可訪問範圍。

零信任在代理系統中的應用

為了保護，該公司提出了三個成熟度層級模型和一套基本技術措施。在初級階段，建議為每個代理實例分配獨特的加密身份，使用短期令牌，採用“預設拒絕”和“基於角色的存取控制”。對於處理不可信輸入（如網頁內容和文件）的代理，實施“沙箱執行”幾乎是必須的措施。

在較高層級，Anthropic 建議採用：

互相認證的 mTLS 標準，通過數字證書實現客戶端和服務器的雙向驗證；
硬體綁定身份，通過 HSM 或 TPM，以及遠端認證。

文件中指出，靜態 API 密鑰和通用服務帳戶密碼甚至不適用於基本層級。

大量內容專注於可觀察性。Anthropic 建議詳細記錄代理的所有行動，包括工具調用、數據存取和外部通信，並將事件傳送到 SIEM 進行實時相關分析。關鍵指標包括停留時間（dwell time）和覆蓋範圍（coverage）。對於關鍵系統，目標是將異常檢測時間控制在一小時內。指南還建議建立“追蹤矩陣”，將每個代理行動與原始請求關聯，並重建完整的決策鏈。

未來的安全運營中心——由人員監控的代理

在反應方面，Anthropic 提出原則：自動化事件處理的繁瑣流程，但不包括關鍵決策。建議由代理和模型負責收集和初步篩選證據、進行平行調查和撰寫事後報告草稿。關於抑制、披露事件和與客戶溝通的決策，建議由人員來做。這一方法也應用於“安全操作”，並提及從傳統的 SOAR 轉向代理驅動的安全運營。

文件中提供了量化指標。Anthropic 引用微軟的 Spotlighting 研究，該研究顯示通過提示污染進行的間接攻擊成功率已從超過 50% 降低到不足 2%。公司還展示了自己使用“憲法分類器”的結果，據稱能阻擋超過 95% 的跳轉攻擊，且假陽性率最低。

在供應鏈部分，Anthropic 建議使用 AI-BOM、OpenSSF Scorecard、依賴性審計和存取能力分析。公司引用自己的研究，指出 250 份惡意文件足以在模型大小從 6 億到 130 億參數中植入後門。

總結來看，Anthropic 認為，對於人工智慧代理來說，僅靠點對點過濾和邊界防護是不夠的。公司建議圍繞身份、最小權限、預先限制的損害和持續監控來構建防禦。根據 Anthropic 的評估，最具優勢的不是擁有最先進人工智慧的組織，而是那些安全架構更為堅固的組織。

提醒一下，六月時，Anthropic 團隊曾警告人工智慧達到遞歸自我完善的風險。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

打賞
按讚
回覆
轉發
分享

回覆

請輸入回覆內容

暫無回覆

已置頂

Anthropic 呼籲以零信任原則來保護人工智慧代理人 - ForkLog：加密貨幣、人工智慧、奇點、未來

人工智慧加速了攻擊循環

零信任在代理系統中的應用

未來的安全運營中心——由人員監控的代理

熱門話題

美股AI概念股普漲

Strategy低位加倉1550枚BTC

SpaceXIPO獲大幅超額認購

非農數據超預期加息預期升溫

預測NBA總冠軍贏20000U

已置頂