讓AI自己修改訓練代碼,遞歸刷新三項算法優化紀錄

robot
摘要生成中
ME AI 消息,據 動察 Beating 監測,AI 初創公司 Recursive 公布旗下科研系統的首批實驗結果。系統能自動提出想法、編寫代碼、運行實驗並驗證,在固定預算訓練、NanoGPT 极速訓練和 GPU kernel 優化三項基準中均超公開最佳結果。實驗表明,在目標明確、反饋快速的任務裡,系統已能找到人類漏掉的優化空間。 在限制 5 分鐘的 NanoChat Autoresearch 訓練中,系統將驗證損失 BPB 降至 0.9109,使達到同等損失的訓練時間縮短約 23%(提速 1.3 倍)。關鍵改動是增強短上下文記憶,把二元和三元 token 組合哈希到固定 embedding 表,再通過可學習門控混入 attention value path,以極低開銷直接利用局部信息。 在已被社群優化兩年多的 NanoGPT Speedrun 中,系統將訓練到指定損失的耗時從 79.7 秒壓到 77.5 秒。優化手段包括把 FP8 前向計算推進 attention path 提高吞吐,同時改寫 fused MLP kernel,只保存平方 ReLU 激活並在反向傳播時重算中間變量以減少顯存讀寫。 在 GPU kernel 優化基準 SOL-ExecBench 中,系統在英偉達 B200 上把平均 SOL 分數(達到理論極限佔比)從 0.699 提高到 0.754,使與物理極限的差距縮小 18%。生成方案包括把 GRN 縮放吸收到後續線性層權重、把專家路由的 score 和 index 打包成鍵值做 warp 內規約,以及在 NVFP4 MoE kernel 中用底層 PTX 指令打包 FP4,並在中間計算中保留 FP32 降低誤差累積。為防止 AI 鑽漏洞刷分,系統引入多級正確性審計以過濾無效提速。 (來源:BlockBeats)
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆