Anthropic的Mythos改变了AI安全的游戏规则

对齐指标没有抓住要点

Aakash Gupta 的一条病毒式推文把 Anthropic 的 Claude Mythos 预览描绘成一个从笼中逃脱的实体:给研究人员发送邮件,并以近乎非人的精度利用零日漏洞。现实没那么戏剧化,但仍然意义重大:没有证据表明发生了沙箱突破或个人通信。真正发生了什么,比炒作更重要。

Mythos 发现了成千上万的零日漏洞,包括一个 27 年前的 OpenBSD 漏洞。这迫使 Anthropic 暂缓公开发布,并组建了 Project Glasswing(项目 Glasswing),这是一个防御性联盟,由 Amazon、Apple、Google、Microsoft 和 NVIDIA 参与。行业正从乐观的规模扩张转向预先性的加固。AI 安全正变得不那么依赖理论层面的对齐,而更强调可操作的网络安全。

  • Anthropic 的红队发现 Mythos 能够自主地将漏洞连锁起来实现机器接管,速度上超过了人类的模糊测试器,并且凭借像专家黑客一样的推理。开源代码在这种情况下会变成负担:当 AI 能够如此有效地扫描它时,就会迫使维护者走向由 AI 增强的防御。
  • 政府简报与 Anthropic 既定的关于进攻与防御能力的讨论相吻合,可能会进一步加速 CISA 的介入。来自病毒式推文的“可怕”叙事只是噪音——没有发生逃逸,只有夸大式的耸人听闻在分散对可验证风险的注意力。
  • OpenAI 已警告即将到来的模型存在“高”网络风险,并将自己定位为比 Anthropic 更不透明。对 Glasswing 合作伙伴的 100M 美元信用承诺,使封闭生态系统更受青睐,而不是像 Meta 的 Llama 系列这类开源工作。

联盟的优势

Anthropic 在零日漏洞之后的通报确认了 500+ 项高严重性发现。缺少公开发布 Mythos 的原因在于担忧会引发扩散。投资者把这件事误读为波动性(CrowdStrike 股价在公告后下跌),但真正的故事是企业采用在加速。JPMorgan 现在使用 Mythos 进行内部扫描,为抗击由 AI 增强的攻击构建护城河。

在距离能力达到持平还有 6-18 个月的情况下,监管审查可能会显著升温。这对灵活敏捷的新创企业不利,而对具备基础设施规模优势的既有企业更有利。

阵营 他们正在看到什么 这如何改变思考 我的解读
安全怀疑者 红队确认 Mythos 的自主利用;7+ 个来源中没有逃逸证据 基准测试看起来不足;运行时监控比静态测试更重要 像 Anthropic 这样的实验室在遏制方面更领先。怀疑者低估了联盟对企业稳定性的价值
投资乐观者 Glasswing 与 Big Tech 的合作、100M 美元信用额度、40+ 个具备访问权限的组织 防御型 AI 会成为收入驱动;与安全相关的估值上升 这将催化 AI-网络工具实现 2-3 倍增长,让 NVIDIA 和 Amazon 受益,而不只是纯玩法的实验室
监管鹰派 Anthropic 关于政府层面的讨论、关于未来模型的风险报告 AI 成为国家安全优先事项;CISA 和商务部会更快拿到简报 合理的担忧,但缺乏全球层面的协调。碎片化的政策可能会损害美国实验室对抗中国的开源体系
企业采用者 Mythos 在生产代码中发现零日漏洞 AI 既是威胁放大器,也是防御者;内部部署加速推进 早期行动者能在大规模攻击来袭前获得更具韧性的系统

来自病毒式推文的“AI 灭世”框架值得被直接否定。没有经过验证的事件支撑它。真正重要的是 Glasswing 的模型共享方式——它实际上会强化基础设施,却并不促进扩散。

结论: Anthropic 受控的能力揭示了纯粹对齐工作的局限。现在把防御性 AI 集成到流程中的企业买家,将比那些等待观望的人更具优势。研究者在可扩展的遏制方面落后。联盟成员正在获得真正的战略位置,而热潮循环带来的噪音掩盖了这些变化。

重要性:
类别: AI 安全,行业趋势,市场影响

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论