广场
最新
热门
资讯
我的主页
发布
小米披露1T模型MiMo-V2-Pro训练细节:动用数千卡,无职级无deadline
ME News
2026-07-02 06:21:48
关注
摘要生成中
ME News 消息,4 月 24 日(UTC+8),据 动察 Beating 监测,小米大模型团队负责人罗福莉在首次深度访谈中披露,MiMo-V2-Pro 模型基座总参数量达 1T,训练动用数千张 GPU。她认为,1T 规模是目前实现接近 Claude Opus 4.6 水平、拿到下阶段 Agent 竞争入场券的底线。 技术层面,Pro 版将全局注意力与滑动窗口注意力的比例推向 7:1 的极致稀疏比,在扩大参数量时控制了长文本的推理成本,并沿用 MTP(多 Token 预测)架构利用富余算力加速推理。 管理层面,百人规模的 MiMo 团队中只有三四十人直接投入核心迭代,团队没有设立职级,也没有明确的小组划分和交付 deadline。遇到训练 loss 跳变等不稳定的数值问题时,团队会选择直接停训排查,哪怕停机一两周、耗费数百万算力成本。 (来源:BlockBeats)
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见
声明
。
赞赏
点赞
评论
转发
分享
评论
请输入评论内容
请输入评论内容
评论
暂无评论
热门话题
查看更多
#
Gate股票转仓功能上线
54.19万 热度
#
Circle股价重挫17%
416.86万 热度
#
预测世界杯葡萄牙VS克罗地亚
16.9万 热度
#
GateCard上线积分体系
12.15万 热度
#
非农数据倒计时
92.16万 热度
置顶
网站地图
小米披露1T模型MiMo-V2-Pro训练细节:动用数千卡,无职级无deadline