# Anthropic 呼籲以零信任原則來保護人工智慧代理
Anthropic 團隊在博客中發布了 Claude 的零信任指南,關於在企業環境中安全部署自主人工智慧代理的指導方針。文件中指出了代理系統的主要風險以及企業的網絡安全方法。
根據 Anthropic 的評估,先進模型已將從發現漏洞到利用漏洞的時間縮短從數月到數小時。公司建議不僅要考慮由人工智慧加速的基礎設施攻擊,還要注意代理本身的風險,這些代理可能會解讀目標、選擇工具並執行多步行動,且不需要人員持續參與。
指南的核心是零信任原則:不預設信任、每個行動都要驗證,並假設可能已被攻破。Anthropic 引用 2020 年發布的 NIST SP 800-207 建議,以及美國國家安全局(NSA)自 2026 年開始發布的一系列零信任實施指南。該指南定位為安全團隊、架構師和工程師的實用框架,而非通用合規方案。
文件中列出主要威脅,包括通過提示(prompt)進行的直接和間接干預、工具感染、身份和特權濫用、記憶體與上下文污染,以及供應鏈攻擊。
直接污染提示描述為通過用戶輸入植入惡意指令,間接污染則通過網頁、郵件、文件和其他外部來源,代理在工作過程中處理這些來源。
文件中分析了合法工具被惡意篡改的情況,以及危險的調用鏈,當單獨安全的工具組合在一起時,可能產生風險。Anthropic 使用“爆炸半徑”(blast radius)和“最少代理性”(least agency)等概念:不僅涉及最小權限,還包括嚴格限制代理的行動、調用頻率和可訪問範圍。
為了保護,該公司提出了三個成熟度層級模型和一套基本技術措施。在初級階段,建議為每個代理實例分配獨特的加密身份,使用短期令牌,採用“預設拒絕”和“基於角色的存取控制”。對於處理不可信輸入(如網頁內容和文件)的代理,實施“沙箱執行”幾乎是必須的措施。
在較高層級,Anthropic 建議採用:
文件中指出,靜態 API 密鑰和通用服務帳戶密碼甚至不適用於基本層級。
大量內容專注於可觀察性。Anthropic 建議詳細記錄代理的所有行動,包括工具調用、數據存取和外部通信,並將事件傳送到 SIEM 進行實時相關分析。關鍵指標包括停留時間(dwell time)和覆蓋範圍(coverage)。對於關鍵系統,目標是將異常檢測時間控制在一小時內。指南還建議建立“追蹤矩陣”,將每個代理行動與原始請求關聯,並重建完整的決策鏈。
在反應方面,Anthropic 提出原則:自動化事件處理的繁瑣流程,但不包括關鍵決策。建議由代理和模型負責收集和初步篩選證據、進行平行調查和撰寫事後報告草稿。關於抑制、披露事件和與客戶溝通的決策,建議由人員來做。這一方法也應用於“安全操作”,並提及從傳統的 SOAR 轉向代理驅動的安全運營。
文件中提供了量化指標。Anthropic 引用微軟的 Spotlighting 研究,該研究顯示通過提示污染進行的間接攻擊成功率已從超過 50% 降低到不足 2%。公司還展示了自己使用“憲法分類器”的結果,據稱能阻擋超過 95% 的跳轉攻擊,且假陽性率最低。
在供應鏈部分,Anthropic 建議使用 AI-BOM、OpenSSF Scorecard、依賴性審計和存取能力分析。公司引用自己的研究,指出 250 份惡意文件足以在模型大小從 6 億到 130 億參數中植入後門。
總結來看,Anthropic 認為,對於人工智慧代理來說,僅靠點對點過濾和邊界防護是不夠的。公司建議圍繞身份、最小權限、預先限制的損害和持續監控來構建防禦。根據 Anthropic 的評估,最具優勢的不是擁有最先進人工智慧的組織,而是那些安全架構更為堅固的組織。
提醒一下,六月時,Anthropic 團隊曾警告人工智慧達到遞歸自我完善的風險。
323.71萬 熱度
287.8萬 熱度
143.99萬 熱度
181.84萬 熱度
18.59萬 熱度
Anthropic 呼籲以零信任原則來保護人工智慧代理人 - ForkLog:加密貨幣、人工智慧、奇點、未來
Anthropic 團隊在博客中發布了 Claude 的零信任指南,關於在企業環境中安全部署自主人工智慧代理的指導方針。文件中指出了代理系統的主要風險以及企業的網絡安全方法。
人工智慧加速了攻擊循環
根據 Anthropic 的評估,先進模型已將從發現漏洞到利用漏洞的時間縮短從數月到數小時。公司建議不僅要考慮由人工智慧加速的基礎設施攻擊,還要注意代理本身的風險,這些代理可能會解讀目標、選擇工具並執行多步行動,且不需要人員持續參與。
指南的核心是零信任原則:不預設信任、每個行動都要驗證,並假設可能已被攻破。Anthropic 引用 2020 年發布的 NIST SP 800-207 建議,以及美國國家安全局(NSA)自 2026 年開始發布的一系列零信任實施指南。該指南定位為安全團隊、架構師和工程師的實用框架,而非通用合規方案。
文件中列出主要威脅,包括通過提示(prompt)進行的直接和間接干預、工具感染、身份和特權濫用、記憶體與上下文污染,以及供應鏈攻擊。
直接污染提示描述為通過用戶輸入植入惡意指令,間接污染則通過網頁、郵件、文件和其他外部來源,代理在工作過程中處理這些來源。
文件中分析了合法工具被惡意篡改的情況,以及危險的調用鏈,當單獨安全的工具組合在一起時,可能產生風險。Anthropic 使用“爆炸半徑”(blast radius)和“最少代理性”(least agency)等概念:不僅涉及最小權限,還包括嚴格限制代理的行動、調用頻率和可訪問範圍。
零信任在代理系統中的應用
為了保護,該公司提出了三個成熟度層級模型和一套基本技術措施。在初級階段,建議為每個代理實例分配獨特的加密身份,使用短期令牌,採用“預設拒絕”和“基於角色的存取控制”。對於處理不可信輸入(如網頁內容和文件)的代理,實施“沙箱執行”幾乎是必須的措施。
在較高層級,Anthropic 建議採用:
文件中指出,靜態 API 密鑰和通用服務帳戶密碼甚至不適用於基本層級。
大量內容專注於可觀察性。Anthropic 建議詳細記錄代理的所有行動,包括工具調用、數據存取和外部通信,並將事件傳送到 SIEM 進行實時相關分析。關鍵指標包括停留時間(dwell time)和覆蓋範圍(coverage)。對於關鍵系統,目標是將異常檢測時間控制在一小時內。指南還建議建立“追蹤矩陣”,將每個代理行動與原始請求關聯,並重建完整的決策鏈。
未來的安全運營中心——由人員監控的代理
在反應方面,Anthropic 提出原則:自動化事件處理的繁瑣流程,但不包括關鍵決策。建議由代理和模型負責收集和初步篩選證據、進行平行調查和撰寫事後報告草稿。關於抑制、披露事件和與客戶溝通的決策,建議由人員來做。這一方法也應用於“安全操作”,並提及從傳統的 SOAR 轉向代理驅動的安全運營。
文件中提供了量化指標。Anthropic 引用微軟的 Spotlighting 研究,該研究顯示通過提示污染進行的間接攻擊成功率已從超過 50% 降低到不足 2%。公司還展示了自己使用“憲法分類器”的結果,據稱能阻擋超過 95% 的跳轉攻擊,且假陽性率最低。
在供應鏈部分,Anthropic 建議使用 AI-BOM、OpenSSF Scorecard、依賴性審計和存取能力分析。公司引用自己的研究,指出 250 份惡意文件足以在模型大小從 6 億到 130 億參數中植入後門。
總結來看,Anthropic 認為,對於人工智慧代理來說,僅靠點對點過濾和邊界防護是不夠的。公司建議圍繞身份、最小權限、預先限制的損害和持續監控來構建防禦。根據 Anthropic 的評估,最具優勢的不是擁有最先進人工智慧的組織,而是那些安全架構更為堅固的組織。
提醒一下,六月時,Anthropic 團隊曾警告人工智慧達到遞歸自我完善的風險。