让AI自己改训练代码,Recursive刷新三项算法优化纪录

robot
摘要生成中
ME AI 消息,据 动察 Beating 监测,AI 初创公司 Recursive 公布旗下科研系统的首批实验结果。系统能自动提出想法、编写代码、运行实验并验证,在固定预算训练、NanoGPT 极速训练和 GPU kernel 优化三项基准中均超公开最佳结果。实验表明,在目标明确、反馈快速的任务里,系统已能找到人类漏掉的优化空间。 在限制 5 分钟的 NanoChat Autoresearch 训练中,系统将验证损失 BPB 降至 0.9109,使达到同等损失的训练时间缩短约 23%(提速 1.3 倍)。关键改动是增强短上下文记忆,把二元和三元 token 组合哈希到固定 embedding 表,再通过可学习门控混入 attention value path,以极低开销直接利用局部信息。 在已被社区优化两年多的 NanoGPT Speedrun 中,系统将训练到指定损失的耗时从 79.7 秒压到 77.5 秒。优化手段包括把 FP8 前向计算推进 attention path 提高吞吐,同时改写 fused MLP kernel,只保存平方 ReLU 激活并在反向传播时重算中间变量以减少显存读写。 在 GPU kernel 优化基准 SOL-ExecBench 中,系统在英伟达 B200 上把平均 SOL 分数(达到理论极限占比)从 0.699 提高到 0.754,使与物理极限的差距缩小 18%。生成方案包括把 GRN 缩放吸收到后续线性层权重、把专家路由的 score 和 index 打包成键值做 warp 内规约,以及在 NVFP4 MoE kernel 中用底层 PTX 指令打包 FP4,并在中间计算中保留 FP32 降低误差累积。为防止 AI 钻漏洞刷分,系统引入多级正确性审计以过滤无效提速。 (来源:BlockBeats)
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论