小米披露1T模型MiMo-V2-Pro的训练细节:使用数千个GPU,无职位等级或截止日期

robot
摘要生成中

根据东查贝廷的监测,小米大模型团队负责人罗福丽在她的首次深度访谈中披露,MiMo-V2-Pro模型基础具有总参数量为1T,采用数千个GPU进行训练。她认为,1T的规模是实现接近Claude Opus 4.6性能并进入下一阶段智能体竞争的基础线。在技术层面,Pro版本将全局注意力与滑动窗口注意力的比例推向极端稀疏比例7:1,控制长文本推理成本的同时扩大参数数量,并继续使用MTP (多Token预测)架构,利用过剩的计算能力加速推理。在管理方面,百人规模的MiMo团队中,只有大约30到40人直接参与核心迭代,没有明确的职位等级、清晰的团队划分或交付截止日期。当遇到训练损失突变等不稳定的数值问题时,团队选择暂停训练进行排查,即使意味着暂停一到两周,且会产生数百万的计算成本。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论