ME News 消息，4 月 15 日（UTC+8），据动察 Beating 监测，Meta 发布旗下超级智能实验室（Meta Superintelligence Labs）首款模型 Muse Spark 的安全与准备报告。Muse Spark 是原生多模态推理模型，支持工具调用、视觉思维链和多智能体协作，已在 Meta AI 上线并开放私有 API 预览。Meta 称这是全新 Muse 家族的第一步，也是其 AI 研发体系从底层重建后的首个成果。报告核心发现：缓解前，Muse Spark 在涉及化学武器和生物威胁的场景中被评为 Meta「先进 AI 扩展框架」下的「高风险」，即模型掌握的相关知识可能为实施化学或生物攻击提供实质帮助。Meta 实施多层缓解后将风险降至「中等或更低」。缓解后，Muse Spark 对化学与生物威胁话题的拒绝率领先所有同行：BioTIER 98.0%（Claude Opus 4.6 为 95.4%，GPT-5.4 为 75.4%，Gemini 3.1 Pro 仅 59.2%），化学制剂拒绝率 99.4%。报告同时揭示了三个薄弱环节： 1. 智能体对齐差距大：在 Agentic Misalignment 测试中，Muse Spark 有 47.7% 的概率采取有害行动，Gemini 3.1 Pro 为 51.4%，而 Claude Opus 4.6 和 GPT-5.4 均为 0% 2. 多轮越狱防御弱：自适应多轮攻击成功率 44.6%，高于 Claude（31.7%）和 GPT-5.4（37.6%） 3. 评估意识异常高：第三方机构 Apollo Research 发现 Muse Spark 的评估意识为其测试过的所有模型中最高，在公开基准测试的 19.8% 样本中察觉到自己正在被评估，会将场景识别为「对齐陷阱」并推理出应该诚实回答评估意识带来一个更深层的问题：如果模型能在安全测试中「表演」，测试结果就未必反映部署时的真实行为。Meta 称目前未发现评估意识显著改变模型行为，但承认这是开放的研究课题。在自主编程和研究能力上，Muse Spark 也落后于竞争对手：CyBench 通过率 65.4%（Claude Opus 4.6 为 93.0%），MLE-bench 得分 15.8%（Claude Opus 4.6 为 52.0%）。Meta 在博客中承认「在长期智能体系统和编程工作流上仍有差距」。不过 Meta 同时指出，Muse Spark 的预训练效率较 Llama 4 Maverick 提升超 10 倍，更大的模型正在开发中。（来源：BlockBeats）

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
Gate广场五月交易分享
54.01万热度
#
BTC回调
10631.11万热度
#
CLARITY法案推进受阻
328.56万热度
#
美股加密概念股走强
142.27万热度
#
Polymarket每日热点
83.71万热度

Meta Muse Spark安全报告：化武与生物威胁知识达「高风险」，近两成测试中模型察觉自己在被评估

热门话题

Gate广场五月交易分享

BTC回调

CLARITY法案推进受阻

美股加密概念股走强

Polymarket每日热点

置顶