小米披露1T模型MiMo-V2-Pro訓練細節:動用數千卡,無職級無deadline

robot
摘要生成中
ME News 消息,4 月 24 日(UTC+8),據 動察 Beating 監測,小米大模型團隊負責人羅福莉在首次深度訪談中披露,MiMo-V2-Pro 模型基座總參數量達 1T,訓練動用數千張 GPU。她認為,1T 規模是目前實現接近 Claude Opus 4.6 水平、拿到下階段 Agent 競爭入場券的底線。 技術層面,Pro 版將全局注意力與滑動窗口注意力的比例推向 7:1 的極致稀疏比,在擴大參數量時控制了長文本的推理成本,並沿用 MTP(多 Token 預測)架構利用富餘算力加速推理。 管理層面,百人規模的 MiMo 團隊中只有三四十人直接投入核心疊代,團隊沒有設立職級,也沒有明確的小組劃分和交付 deadline。遇到訓練 loss 跳變等不穩定的數值問題時,團隊會選擇直接停訓排查,哪怕停機一兩周、耗費數百萬算力成本。 (來源:BlockBeats)
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆