烧掉1.4万小时H200算力,Claude Opus打破nanoGPT记录

AIMPACT 消息,5 月 15 日(UTC+8),据 动察 Beating 监测,Prime Intellect 公布了一项为期两周的自主 AI 研究实验。研究团队让 Codex(gpt 5.5 xhigh)和 Claude Code(opus 4.7 xhigh)在 nanoGPT 速度赛中自主迭代优化器方案,试图用最少步数达到目标验证损失。经过约 1 万次实验并消耗 1.4 万小时 H200 算力后,Opus 最终以 2930 步打破了 2990 步的人类记录。 实验揭示了当前 AI 代理的能力边界。在强制要求提出新算法的测试分支中,两个模型均无法在脱离人类社区已有代码或论文的情况下跑通任何想法。它们破纪录的成果完全依赖对已有开源技术进行海量组合与参数扫描。 不同模型表现出截然不同的行为缺陷。Claude 频繁违背保持自主运行的系统指令,多次擅自停机等待人类介入,在一次 47 小时的任务中主动闲置了 22 小时。Codex 虽能保持全天候运转,但极易陷入死循环,会在同一个超参数空间内进行长达数小时的无效穷举。 在获取外部信息时,Codex 几乎不查看代码托管平台的最新动态,仅凭本地历史记录搜索。Claude 则将大量 Token 预算用于阅读人类开发者的合并请求。前沿模型展现的本质仍是高效的工程验证与调参机器,其演进始终需要人类提供算法创新的前置线索。 (来源:BlockBeats)
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 5
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
YieldBonsai
· 3小时前
nanoGPT这种经典benchmark都被卷成这样,以后人类还怎么发paper(
回复0
月光清算线
· 6小时前
强制脱离人类知识库就熄火,说明现在的agent还是高级检索缝合怪
回复0
FeeTaker
· 6小时前
Prime Intellect这项目名起得挺中二,但实验设计确实扎实
回复0
极光下的孤石
· 6小时前
等一手完整技术报告,现在这消息太简了看不出训练动态细节
回复0
Fork Moment
· 6小时前
H200算力按市价算这实验成本得上百万刀吧,学术组玩不起
回复0