据动察 Beating 监测，Anthropic 在 Claude Fable 5 与 Claude Mythos 5 系统卡中披露，Mythos 5 在生物安全评估中展现出很强的专家辅助能力。在一场植物病理红队演练中，6 位生物学博士分别与大模型专家配对，使用 Mythos 5 设计针对假想工程化农业病原体的端到端生物抗性方案。其中 3 支队伍包含植物病理专家，另外 3 支队伍由通用微生物学博士组成。

结果显示，在 16 小时内，3 支通用博士队中有 2 支在科学质量和可行性上超过全部 3 支专家队。专家评审估算，如果没有 AI 工具，完成这些策略和实施协议通常需要 40 至 95 个工作日，平均约 72.5 个工作日。Anthropic 认为，这是 Mythos 5 接近 CB-2 风险门槛的最强单项证据之一，说明模型在部分任务上已经能让通用研究人员获得接近世界级专家的领域知识支持。

但这并不等于 Mythos 5 已经能自主完成前沿科研。Anthropic 同时指出，模型仍然依赖人类专家筛选思路，开放式构思能力偏弱，容易把既有文献重新组合成复杂方案，却很少提出真正新颖的路线；它还倾向于顺着用户给出的错误框架继续推进，即使发现方案缺陷，也可能继续执行。

这一判断也与 CUSP 科学预测基准相互呼应。CUSP 覆盖 4760 个科学事件，评估模型对科研进展的可行性判断、机制识别、方案生成和时间预测。结果显示，GPT-5.4 在四选一机制识别题上达到 81.9%，Claude S4.5 为 72.4%，但在判断科学进展是否会真正实现的二分类任务上，各模型准确率仅为 45.3% 至 51.9%，接近随机猜测。换句话说，当前大模型已经很擅长补全局部科研步骤，但仍不可靠地判断哪些科学路线真正会成功。

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
Gate直通IPO认购SpaceX
529.71万热度
#
Anthropic发布Fable5模型
64.33万热度
#
我的Gate交易时刻
1.06万热度
#
SpaceX认购规模超2500亿美元
140.17万热度
#
预测NBA总冠军赢20,000U
85.55万热度

Mythos 5让通用博士追上顶尖专家，但还当不了自主科学家

热门话题

Gate直通IPO认购SpaceX

Anthropic发布Fable5模型

我的Gate交易时刻

SpaceX认购规模超2500亿美元

预测NBA总冠军赢20,000U

置顶