Anthropic 呼吁以零信任原则保护人工智能代理 - ForkLog:加密货币、人工智能、奇点、未来

AI-agents ИИ агенты 3# Anthropic 呼吁以零信任原则保护人工智能代理

Anthropic团队在博客中发布了Claude关于人工智能代理零信任部署的指南,内容涵盖在企业环境中安全部署自主AI代理。文件中指出了代理系统的关键风险,并给出了企业网络安全的应对思路。

AI加快了攻击周期

根据Anthropic的评估,先进模型将从发现漏洞到利用漏洞的间隔从数月缩短到数小时。公司建议,不仅要关注AI加速导致的对基础设施的攻击风险,还要重视代理本身的风险:这些代理可能会解读目标、选择工具,并在没有持续的人类参与的情况下执行多步操作。

该指南的核心基于零信任原则:默认不信任、验证每一个操作,并以可能已经发生被攻破为前提。Anthropic引用了NIST SP 800-207的建议,该建议于2020年发布;同时还提到了零信任实施指南系列,该系列由АНБ(美国国家安全局)自2026年开始发布。该指南被定位为安全团队、架构师和工程师的实用框架,而非“一刀切”的合规方案。

文件中列出的关键威胁包括:通过提示进行的直接与间接干预、工具感染、身份与权限的滥用、内存和上下文的投毒,以及供应链攻击。

其中,直接提示投毒被描述为通过用户输入植入恶意指令;间接投毒则通过网页、邮件、文档以及代理在工作过程中处理的其他外部来源来实现。

文件还分析了合法工具被替换为恶意工具的情况,以及危险的调用链:当单独看都相对安全的手段组合在一起时,也会产生高风险结果。Anthropic使用了“爆炸半径(blast radius)”和“最小主体性(least agency)”这两个概念:这不仅意味着最小化访问权限,也意味着对代理的行动、调用频率以及其可访问的区域进行严格限制。

面向代理系统的零信任

为实现保护,公司提出了三层成熟度模型,以及一套基础的技术措施。在初始层级,指南建议为每个代理实例分配唯一的加密身份,使用短期存活的令牌,采用“默认拒绝”,并实施“基于角色的访问控制”。对于处理不可信输入(如网页内容和文档)的代理,指南将“沙箱执行”方法几乎直接描述为强制性的防护措施。

在更高层级,Anthropic建议采用:

  • 使用数字证书的mTLS标准,通过客户端与服务器的相互认证;
  • 通过HSM或TPM实现硬件绑定的身份,并进行远程鉴定。

指南中指出,静态API密钥以及服务账号共享密码即使在基础层级也并不合适。

指南中有很大一部分内容聚焦于可观测性。Anthropic建议对代理的所有行为进行详细记录,包括工具调用、数据访问以及外部通信;随后将事件传输到SIEM,以便进行实时关联分析。文中提到的关键指标包括dwell time和coverage。对于关键系统,目标检测偏差的时间被界定为在1小时内。指南还特别建议构建“可追溯矩阵”,将每一次代理行为与其来源请求关联起来,并重建完整的决策链条。

未来的Security Operations Center:由人类掌控的代理

在事件响应方面,Anthropic提出了一个原则:自动化围绕事件的官僚流程,但不自动化关键决策。指南建议将代理和模型用于收集并进行初步筛选证据、推进并行的调查分支,以及起草事后复盘(postmortem)草稿。对于遏制措施、事件披露以及与客户的沟通等决策,指南建议由人类负责掌控。同样的做法也被迁移到“防御操作”中——并提及从传统SOAR向代理化(agentic)的转变。

文件中还给出了量化的参考。Anthropic引用了Microsoft Spotlighting的一项研究:通过提示投毒实现的间接攻击成功率在实验中从超过50%降至低于2%。此外,公司还给出了其关于使用“宪法分类器(constitutional classifiers)”的自家结果:据其数据,这些分类器能在最小增加误拒绝(false refusal)的情况下阻止超过95%的越狱尝试。

在供应链环节,Anthropic建议使用AI-BOM、OpenSSF Scorecard、依赖项审计以及访问可能性的分析。作为论据,公司引用了自身研究:250份恶意文档就足以在模型规模为600 million到13 billion参数的模型中植入后门。

最终,Anthropic得出结论:对于AI代理而言,仅靠精确的过滤与外围防护是不够的。公司建议将防护构建在身份、最小权限、预先限定的可造成损害范围以及对行动的持续检查之上。根据Anthropic的评估,处于最佳位置的将不是拥有最先进AI的组织,而是那些基础安全架构更强的组织。

提醒一下:在6月,Anthropic团队曾就AI实现递归式自我完善的风险发出警示。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论