📢 Gate 广场认证创作者招募中,入驻瓜分每月 $20,000 创作大奖!
📌 参与方式
站内创作者: 成功申请“创作者认证徽章”即可自动参与。
新入驻创作者: 需填写入驻表单申请 👉️ https://www.gate.com/questionnaire/7698
🎁 创作者福利
1️⃣ 首帖见面礼: 新入驻/回归创作者发首帖,即得 $50U 奖励!
2️⃣ 周度发帖奖: 完成周发帖任务,轻松瓜分 $10,000 奖池!
3️⃣ 月度创作奖: 赛道更多样,完成月度任务瓜分 $1,600 GT 奖池!
4️⃣ 专属推广任务:进入专属创作者社群,享专属推广任务和节日礼包!
让您的优质内容被更多人看到,携手共建高质量创作者社区!
活动细节:https://www.gate.com/announcements/article/51536
Mythos 5让通用博士追上顶尖专家,但还当不了自主科学家
结果显示,在 16 小时内,3 支通用博士队中有 2 支在科学质量和可行性上超过全部 3 支专家队。专家评审估算,如果没有 AI 工具,完成这些策略和实施协议通常需要 40 至 95 个工作日,平均约 72.5 个工作日。Anthropic 认为,这是 Mythos 5 接近 CB-2 风险门槛的最强单项证据之一,说明模型在部分任务上已经能让通用研究人员获得接近世界级专家的领域知识支持。
但这并不等于 Mythos 5 已经能自主完成前沿科研。Anthropic 同时指出,模型仍然依赖人类专家筛选思路,开放式构思能力偏弱,容易把既有文献重新组合成复杂方案,却很少提出真正新颖的路线;它还倾向于顺着用户给出的错误框架继续推进,即使发现方案缺陷,也可能继续执行。
这一判断也与 CUSP 科学预测基准相互呼应。CUSP 覆盖 4760 个科学事件,评估模型对科研进展的可行性判断、机制识别、方案生成和时间预测。结果显示,GPT-5.4 在四选一机制识别题上达到 81.9%,Claude S4.5 为 72.4%,但在判断科学进展是否会真正实现的二分类任务上,各模型准确率仅为 45.3% 至 51.9%,接近随机猜测。换句话说,当前大模型已经很擅长补全局部科研步骤,但仍不可靠地判断哪些科学路线真正会成功。