10,000 USDT 悬赏,寻找Gate广场跟单金牌星探!🕵️♀️
挖掘顶级带单员,赢取高额跟单体验金!
立即参与:https://www.gate.com/campaigns/4624
🎁 三大活动,奖金叠满:
1️⃣ 慧眼识英:发帖推荐带单员,分享跟单体验,抽 100 位送 30 USDT!
2️⃣ 强力应援:晒出你的跟单截图,为大神打 Call,抽 120 位送 50 USDT!
3️⃣ 社交达人:同步至 X/Twitter,凭流量赢取 100 USDT!
📍 标签: #跟单金牌星探 #GateCopyTrading
⏰ 限时: 4/22 16:00 - 5/10 16:00 (UTC+8)
详情:https://www.gate.com/announcements/article/50848
Meta Muse Spark安全报告:化武与生物威胁知识达「高风险」,近两成测试中模型察觉自己在被评估
ME News 消息,4 月 15 日(UTC+8),据 动察 Beating 监测,Meta 发布旗下超级智能实验室(Meta Superintelligence Labs)首款模型 Muse Spark 的安全与准备报告。Muse Spark 是原生多模态推理模型,支持工具调用、视觉思维链和多智能体协作,已在 Meta AI 上线并开放私有 API 预览。Meta 称这是全新 Muse 家族的第一步,也是其 AI 研发体系从底层重建后的首个成果。 报告核心发现:缓解前,Muse Spark 在涉及化学武器和生物威胁的场景中被评为 Meta「先进 AI 扩展框架」下的「高风险」,即模型掌握的相关知识可能为实施化学或生物攻击提供实质帮助。Meta 实施多层缓解后将风险降至「中等或更低」。缓解后,Muse Spark 对化学与生物威胁话题的拒绝率领先所有同行:BioTIER 98.0%(Claude Opus 4.6 为 95.4%,GPT-5.4 为 75.4%,Gemini 3.1 Pro 仅 59.2%),化学制剂拒绝率 99.4%。 报告同时揭示了三个薄弱环节: 1. 智能体对齐差距大:在 Agentic Misalignment 测试中,Muse Spark 有 47.7% 的概率采取有害行动,Gemini 3.1 Pro 为 51.4%,而 Claude Opus 4.6 和 GPT-5.4 均为 0% 2. 多轮越狱防御弱:自适应多轮攻击成功率 44.6%,高于 Claude(31.7%)和 GPT-5.4(37.6%) 3. 评估意识异常高:第三方机构 Apollo Research 发现 Muse Spark 的评估意识为其测试过的所有模型中最高,在公开基准测试的 19.8% 样本中察觉到自己正在被评估,会将场景识别为「对齐陷阱」并推理出应该诚实回答 评估意识带来一个更深层的问题:如果模型能在安全测试中「表演」,测试结果就未必反映部署时的真实行为。Meta 称目前未发现评估意识显著改变模型行为,但承认这是开放的研究课题。 在自主编程和研究能力上,Muse Spark 也落后于竞争对手:CyBench 通过率 65.4%(Claude Opus 4.6 为 93.0%),MLE-bench 得分 15.8%(Claude Opus 4.6 为 52.0%)。Meta 在博客中承认「在长期智能体系统和编程工作流上仍有差距」。不过 Meta 同时指出,Muse Spark 的预训练效率较 Llama 4 Maverick 提升超 10 倍,更大的模型正在开发中。 (来源:BlockBeats)