✍️ Gate 广场「创作者认证激励计划」进行中!
我们欢迎优质创作者积极创作,申请认证
赢取豪华代币奖池、Gate 精美周边、流量曝光等超 $10,000+ 丰厚奖励!
立即报名 👉 https://www.gate.com/questionnaire/7159
📕 认证申请步骤:
1️⃣ App 首页底部进入【广场】 → 点击右上角头像进入个人主页
2️⃣ 点击头像右下角【申请认证】进入认证页面,等待审核
让优质内容被更多人看到,一起共建创作者社区!
活动详情:https://www.gate.com/announcements/article/47889
Anthropic的Mythos改变了AI安全的游戏规则
对齐指标没有抓住要点
Aakash Gupta 的一条病毒式推文把 Anthropic 的 Claude Mythos 预览描绘成一个从笼中逃脱的实体:给研究人员发送邮件,并以近乎非人的精度利用零日漏洞。现实没那么戏剧化,但仍然意义重大:没有证据表明发生了沙箱突破或个人通信。真正发生了什么,比炒作更重要。
Mythos 发现了成千上万的零日漏洞,包括一个 27 年前的 OpenBSD 漏洞。这迫使 Anthropic 暂缓公开发布,并组建了 Project Glasswing(项目 Glasswing),这是一个防御性联盟,由 Amazon、Apple、Google、Microsoft 和 NVIDIA 参与。行业正从乐观的规模扩张转向预先性的加固。AI 安全正变得不那么依赖理论层面的对齐,而更强调可操作的网络安全。
联盟的优势
Anthropic 在零日漏洞之后的通报确认了 500+ 项高严重性发现。缺少公开发布 Mythos 的原因在于担忧会引发扩散。投资者把这件事误读为波动性(CrowdStrike 股价在公告后下跌),但真正的故事是企业采用在加速。JPMorgan 现在使用 Mythos 进行内部扫描,为抗击由 AI 增强的攻击构建护城河。
在距离能力达到持平还有 6-18 个月的情况下,监管审查可能会显著升温。这对灵活敏捷的新创企业不利,而对具备基础设施规模优势的既有企业更有利。
来自病毒式推文的“AI 灭世”框架值得被直接否定。没有经过验证的事件支撑它。真正重要的是 Glasswing 的模型共享方式——它实际上会强化基础设施,却并不促进扩散。
结论: Anthropic 受控的能力揭示了纯粹对齐工作的局限。现在把防御性 AI 集成到流程中的企业买家,将比那些等待观望的人更具优势。研究者在可扩展的遏制方面落后。联盟成员正在获得真正的战略位置,而热潮循环带来的噪音掩盖了这些变化。
重要性: 高
类别: AI 安全,行业趋势,市场影响