摘要：与罗福利的采访概述了小米的MiMo-V2-Pro，这是一个拥有万亿参数、以GPU为主的模型，目标达到Claude Opus 4.6级别的能力。它采用极端稀疏注意力结合MTP；运营风险包括一个精简、结构不完整的团队在损失跳跃时停止训练，造成高昂的成本。据报道，MiMo-V2-Pro拥有10000亿亿参数，在数千个GPU上训练，旨在实现Claude Opus 4.6级别的性能。它使用极端稀疏注意力(7:1)结合MTP；一个小团队在训练不稳定时停止以进行故障排除，风险是数百万的成本。

空投黑洞

2026-04-24 06:31:18

摘要生成中

根据东查贝廷的监测，小米大模型团队负责人罗福丽在她的首次深度访谈中披露，MiMo-V2-Pro模型基础具有总参数量为1T，采用数千个GPU进行训练。她认为，1T的规模是实现接近Claude Opus 4.6性能并进入下一阶段智能体竞争的基础线。在技术层面，Pro版本将全局注意力与滑动窗口注意力的比例推向极端稀疏比例7:1，控制长文本推理成本的同时扩大参数数量，并继续使用MTP (多Token预测)架构，利用过剩的计算能力加速推理。在管理方面，百人规模的MiMo团队中，只有大约30到40人直接参与核心迭代，没有明确的职位等级、清晰的团队划分或交付截止日期。当遇到训练损失突变等不稳定的数值问题时，团队选择暂停训练进行排查，即使意味着暂停一到两周，且会产生数百万的计算成本。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
WCTC交易王PK
16.63万热度
#
加密市场行情震荡
22.97万热度
#
rsETH攻击事件后续进展
7.33万热度
#
美伊谈判陷入僵局
18.04万热度
#
ETH链Meme币FLORK拉升
3.9万热度

小米披露1T模型MiMo-V2-Pro的训练细节：使用数千个GPU，无职位等级或截止日期

热门话题

WCTC交易王PK

加密市场行情震荡

rsETH攻击事件后续进展

美伊谈判陷入僵局

ETH链Meme币FLORK拉升

置顶