從混合線性注意力切回全注意力,Sigmoid路由和Forge推訓優化,M2.7在長序列Agent RL上的工程取捨挺有意思,100輪自進化閉環30%提升,這數據放在9.8B參數規模下相當能打

查看原文
区块律动
解密底牌:MiniMax發布M2技術報告,詳述MoE底座與Agent訓練系統
本文梳理 MiniMax 的 M2 系列技術報告,描述 M1 的混合線性注意力向全注意力的取捨,以及 MTP、Sigmoid 路由、Forge 在推訓端的成本緩解。首次披露長序列 Agent RL 的 Forge 與 M2.7 自進化機制,採用窗口化 FIFO 與前綴樹合併,訓練速率在長序列可達 40 倍提升。M2.7 的自進化閉環可完成超 100 輪分析、改代碼、跑評測與回退,提升約 30%。在單 token 9.8B 參數下,SWE-Pro 56.22%,MLE Bench 66.6%,接近 Gemini 3.1。
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆