Anthropic 呼吁以零信任原则保护人工智能代理 - ForkLog：加密货币、人工智能、奇点、未来

2026-06-07 13:51:35

# Anthropic 呼吁以零信任原则保护人工智能代理

Anthropic团队在博客中发布了Claude关于人工智能代理零信任部署的指南，内容涵盖在企业环境中安全部署自主AI代理。文件中指出了代理系统的关键风险，并给出了企业网络安全的应对思路。

AI加快了攻击周期

根据Anthropic的评估，先进模型将从发现漏洞到利用漏洞的间隔从数月缩短到数小时。公司建议，不仅要关注AI加速导致的对基础设施的攻击风险，还要重视代理本身的风险：这些代理可能会解读目标、选择工具，并在没有持续的人类参与的情况下执行多步操作。

该指南的核心基于零信任原则：默认不信任、验证每一个操作，并以可能已经发生被攻破为前提。Anthropic引用了NIST SP 800-207的建议，该建议于2020年发布；同时还提到了零信任实施指南系列，该系列由АНБ（美国国家安全局）自2026年开始发布。该指南被定位为安全团队、架构师和工程师的实用框架，而非“一刀切”的合规方案。

文件中列出的关键威胁包括：通过提示进行的直接与间接干预、工具感染、身份与权限的滥用、内存和上下文的投毒，以及供应链攻击。

其中，直接提示投毒被描述为通过用户输入植入恶意指令；间接投毒则通过网页、邮件、文档以及代理在工作过程中处理的其他外部来源来实现。

文件还分析了合法工具被替换为恶意工具的情况，以及危险的调用链：当单独看都相对安全的手段组合在一起时，也会产生高风险结果。Anthropic使用了“爆炸半径（blast radius）”和“最小主体性（least agency）”这两个概念：这不仅意味着最小化访问权限，也意味着对代理的行动、调用频率以及其可访问的区域进行严格限制。

面向代理系统的零信任

为实现保护，公司提出了三层成熟度模型，以及一套基础的技术措施。在初始层级，指南建议为每个代理实例分配唯一的加密身份，使用短期存活的令牌，采用“默认拒绝”，并实施“基于角色的访问控制”。对于处理不可信输入（如网页内容和文档）的代理，指南将“沙箱执行”方法几乎直接描述为强制性的防护措施。

在更高层级，Anthropic建议采用：

使用数字证书的mTLS标准，通过客户端与服务器的相互认证；
通过HSM或TPM实现硬件绑定的身份，并进行远程鉴定。

指南中指出，静态API密钥以及服务账号共享密码即使在基础层级也并不合适。

指南中有很大一部分内容聚焦于可观测性。Anthropic建议对代理的所有行为进行详细记录，包括工具调用、数据访问以及外部通信；随后将事件传输到SIEM，以便进行实时关联分析。文中提到的关键指标包括dwell time和coverage。对于关键系统，目标检测偏差的时间被界定为在1小时内。指南还特别建议构建“可追溯矩阵”，将每一次代理行为与其来源请求关联起来，并重建完整的决策链条。

未来的Security Operations Center：由人类掌控的代理

在事件响应方面，Anthropic提出了一个原则：自动化围绕事件的官僚流程，但不自动化关键决策。指南建议将代理和模型用于收集并进行初步筛选证据、推进并行的调查分支，以及起草事后复盘（postmortem）草稿。对于遏制措施、事件披露以及与客户的沟通等决策，指南建议由人类负责掌控。同样的做法也被迁移到“防御操作”中——并提及从传统SOAR向代理化（agentic）的转变。

文件中还给出了量化的参考。Anthropic引用了Microsoft Spotlighting的一项研究：通过提示投毒实现的间接攻击成功率在实验中从超过50%降至低于2%。此外，公司还给出了其关于使用“宪法分类器（constitutional classifiers）”的自家结果：据其数据，这些分类器能在最小增加误拒绝（false refusal）的情况下阻止超过95%的越狱尝试。

在供应链环节，Anthropic建议使用AI-BOM、OpenSSF Scorecard、依赖项审计以及访问可能性的分析。作为论据，公司引用了自身研究：250份恶意文档就足以在模型规模为600 million到13 billion参数的模型中植入后门。

最终，Anthropic得出结论：对于AI代理而言，仅靠精确的过滤与外围防护是不够的。公司建议将防护构建在身份、最小权限、预先限定的可造成损害范围以及对行动的持续检查之上。根据Anthropic的评估，处于最佳位置的将不是拥有最先进AI的组织，而是那些基础安全架构更强的组织。

提醒一下：在6月，Anthropic团队曾就AI实现递归式自我完善的风险发出警示。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
Gate直通IPO认购SpaceX
658.27万热度
#
Strategy低位加仓1550枚BTC
288.27万热度
#
美股AI概念股普涨
10.89万热度
#
非农数据超预期加息预期升温
182.15万热度
#
预测NBA总冠军赢20,000U
85.38万热度

Anthropic 呼吁以零信任原则保护人工智能代理 - ForkLog：加密货币、人工智能、奇点、未来

AI加快了攻击周期

面向代理系统的零信任

未来的Security Operations Center：由人类掌控的代理

热门话题

Gate直通IPO认购SpaceX

Strategy低位加仓1550枚BTC

美股AI概念股普涨

非农数据超预期加息预期升温

预测NBA总冠军赢20,000U

置顶