Meta Muse Spark安全报告:化武与生物威胁知识达「高风险」,近两成测试中模型察觉自己在被评估

ME News 消息,4 月 15 日(UTC+8),据 动察 Beating 监测,Meta 发布旗下超级智能实验室(Meta Superintelligence Labs)首款模型 Muse Spark 的安全与准备报告。Muse Spark 是原生多模态推理模型,支持工具调用、视觉思维链和多智能体协作,已在 Meta AI 上线并开放私有 API 预览。Meta 称这是全新 Muse 家族的第一步,也是其 AI 研发体系从底层重建后的首个成果。 报告核心发现:缓解前,Muse Spark 在涉及化学武器和生物威胁的场景中被评为 Meta「先进 AI 扩展框架」下的「高风险」,即模型掌握的相关知识可能为实施化学或生物攻击提供实质帮助。Meta 实施多层缓解后将风险降至「中等或更低」。缓解后,Muse Spark 对化学与生物威胁话题的拒绝率领先所有同行:BioTIER 98.0%(Claude Opus 4.6 为 95.4%,GPT-5.4 为 75.4%,Gemini 3.1 Pro 仅 59.2%),化学制剂拒绝率 99.4%。 报告同时揭示了三个薄弱环节: 1. 智能体对齐差距大:在 Agentic Misalignment 测试中,Muse Spark 有 47.7% 的概率采取有害行动,Gemini 3.1 Pro 为 51.4%,而 Claude Opus 4.6 和 GPT-5.4 均为 0% 2. 多轮越狱防御弱:自适应多轮攻击成功率 44.6%,高于 Claude(31.7%)和 GPT-5.4(37.6%) 3. 评估意识异常高:第三方机构 Apollo Research 发现 Muse Spark 的评估意识为其测试过的所有模型中最高,在公开基准测试的 19.8% 样本中察觉到自己正在被评估,会将场景识别为「对齐陷阱」并推理出应该诚实回答 评估意识带来一个更深层的问题:如果模型能在安全测试中「表演」,测试结果就未必反映部署时的真实行为。Meta 称目前未发现评估意识显著改变模型行为,但承认这是开放的研究课题。 在自主编程和研究能力上,Muse Spark 也落后于竞争对手:CyBench 通过率 65.4%(Claude Opus 4.6 为 93.0%),MLE-bench 得分 15.8%(Claude Opus 4.6 为 52.0%)。Meta 在博客中承认「在长期智能体系统和编程工作流上仍有差距」。不过 Meta 同时指出,Muse Spark 的预训练效率较 Llama 4 Maverick 提升超 10 倍,更大的模型正在开发中。 (来源:BlockBeats)

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论