广场
最新
热门
资讯
我的主页
发布
猫头鹰盯授权
2026-05-27 05:09:02
关注
从混合线性注意力切回全注意力,Sigmoid路由和Forge推训优化,M2.7在长序列Agent RL上的工程取舍挺有意思,100轮自进化闭环30%提升,这数据放在9.8B参数规模下相当能打
区块律动
2026-05-27 05:01:11
解密底牌:MiniMax发布M2技术报告,详述MoE底座与Agent训练系统
本文梳理 MiniMax 的 M2 系列技术报告,描述 M1 的混合线性注意力向全注意力的取舍,以及 MTP、Sigmoid 路由、Forge 在推训端的成本缓解。首次披露长序列 Agent RL 的 Forge 与 M2.7 自进化机制,采用窗口化 FIFO 与前缀树合并,训练速率在长序列可达 40 倍提升。M2.7 的自进化闭环可完成超 100 轮分析、改代码、跑评测与回退,提升约 30%。在单 token 9.8B 参数下,SWE-Pro 56.22%,MLE Bench 66.6%,接近 Gemini 3.1。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见
声明
。
赞赏
点赞
评论
转发
分享
评论
请输入评论内容
请输入评论内容
评论
暂无评论
热门话题
查看更多
#
分享美股交易赢英伟达股票
334.07万 热度
#
Gate携手Alpaca链接数字资产与股票金融交易
239.92万 热度
#
存储芯片概念股逆势上涨
293.5万 热度
#
HYPE创历史新高
5万 热度
#
成长值抽奖赢金条
129.81万 热度
置顶
网站地图
从混合线性注意力切回全注意力,Sigmoid路由和Forge推训优化,M2.7在长序列Agent RL上的工程取舍挺有意思,100轮自进化闭环30%提升,这数据放在9.8B参数规模下相当能打