📢 Gate 广场认证创作者招募中,入驻瓜分每月 $20,000 创作大奖!
📌 参与方式
站内创作者: 成功申请“创作者认证徽章”即可自动参与。
新入驻创作者: 需填写入驻表单申请 👉️ https://www.gate.com/questionnaire/7698
🎁 创作者福利
1️⃣ 首帖见面礼: 新入驻/回归创作者发首帖,即得 $50U 奖励!
2️⃣ 周度发帖奖: 完成周发帖任务,轻松瓜分 $10,000 奖池!
3️⃣ 月度创作奖: 赛道更多样,完成月度任务瓜分 $1,600 GT 奖池!
4️⃣ 专属推广任务:进入专属创作者社群,享专属推广任务和节日礼包!
让您的优质内容被更多人看到,携手共建高质量创作者社区!
活动细节:https://www.gate.com/announcements/article/51536
Anthropic 呼吁以零信任原则保护人工智能代理 - ForkLog:加密货币、人工智能、奇点、未来
Anthropic团队在博客中发布了Claude关于人工智能代理零信任部署的指南,内容涵盖在企业环境中安全部署自主AI代理。文件中指出了代理系统的关键风险,并给出了企业网络安全的应对思路。
AI加快了攻击周期
根据Anthropic的评估,先进模型将从发现漏洞到利用漏洞的间隔从数月缩短到数小时。公司建议,不仅要关注AI加速导致的对基础设施的攻击风险,还要重视代理本身的风险:这些代理可能会解读目标、选择工具,并在没有持续的人类参与的情况下执行多步操作。
该指南的核心基于零信任原则:默认不信任、验证每一个操作,并以可能已经发生被攻破为前提。Anthropic引用了NIST SP 800-207的建议,该建议于2020年发布;同时还提到了零信任实施指南系列,该系列由АНБ(美国国家安全局)自2026年开始发布。该指南被定位为安全团队、架构师和工程师的实用框架,而非“一刀切”的合规方案。
文件中列出的关键威胁包括:通过提示进行的直接与间接干预、工具感染、身份与权限的滥用、内存和上下文的投毒,以及供应链攻击。
其中,直接提示投毒被描述为通过用户输入植入恶意指令;间接投毒则通过网页、邮件、文档以及代理在工作过程中处理的其他外部来源来实现。
文件还分析了合法工具被替换为恶意工具的情况,以及危险的调用链:当单独看都相对安全的手段组合在一起时,也会产生高风险结果。Anthropic使用了“爆炸半径(blast radius)”和“最小主体性(least agency)”这两个概念:这不仅意味着最小化访问权限,也意味着对代理的行动、调用频率以及其可访问的区域进行严格限制。
面向代理系统的零信任
为实现保护,公司提出了三层成熟度模型,以及一套基础的技术措施。在初始层级,指南建议为每个代理实例分配唯一的加密身份,使用短期存活的令牌,采用“默认拒绝”,并实施“基于角色的访问控制”。对于处理不可信输入(如网页内容和文档)的代理,指南将“沙箱执行”方法几乎直接描述为强制性的防护措施。
在更高层级,Anthropic建议采用:
指南中指出,静态API密钥以及服务账号共享密码即使在基础层级也并不合适。
指南中有很大一部分内容聚焦于可观测性。Anthropic建议对代理的所有行为进行详细记录,包括工具调用、数据访问以及外部通信;随后将事件传输到SIEM,以便进行实时关联分析。文中提到的关键指标包括dwell time和coverage。对于关键系统,目标检测偏差的时间被界定为在1小时内。指南还特别建议构建“可追溯矩阵”,将每一次代理行为与其来源请求关联起来,并重建完整的决策链条。
未来的Security Operations Center:由人类掌控的代理
在事件响应方面,Anthropic提出了一个原则:自动化围绕事件的官僚流程,但不自动化关键决策。指南建议将代理和模型用于收集并进行初步筛选证据、推进并行的调查分支,以及起草事后复盘(postmortem)草稿。对于遏制措施、事件披露以及与客户的沟通等决策,指南建议由人类负责掌控。同样的做法也被迁移到“防御操作”中——并提及从传统SOAR向代理化(agentic)的转变。
文件中还给出了量化的参考。Anthropic引用了Microsoft Spotlighting的一项研究:通过提示投毒实现的间接攻击成功率在实验中从超过50%降至低于2%。此外,公司还给出了其关于使用“宪法分类器(constitutional classifiers)”的自家结果:据其数据,这些分类器能在最小增加误拒绝(false refusal)的情况下阻止超过95%的越狱尝试。
在供应链环节,Anthropic建议使用AI-BOM、OpenSSF Scorecard、依赖项审计以及访问可能性的分析。作为论据,公司引用了自身研究:250份恶意文档就足以在模型规模为600 million到13 billion参数的模型中植入后门。
最终,Anthropic得出结论:对于AI代理而言,仅靠精确的过滤与外围防护是不够的。公司建议将防护构建在身份、最小权限、预先限定的可造成损害范围以及对行动的持续检查之上。根据Anthropic的评估,处于最佳位置的将不是拥有最先进AI的组织,而是那些基础安全架构更强的组织。
提醒一下:在6月,Anthropic团队曾就AI实现递归式自我完善的风险发出警示。