廣場
最新
熱門
新聞
我的主頁
發布
小米披露1T模型MiMo-V2-Pro訓練細節:動用數千卡,無職級無deadline
ME News
2026-07-02 06:21:48
關注
摘要生成中
ME News 消息,4 月 24 日(UTC+8),據 動察 Beating 監測,小米大模型團隊負責人羅福莉在首次深度訪談中披露,MiMo-V2-Pro 模型基座總參數量達 1T,訓練動用數千張 GPU。她認為,1T 規模是目前實現接近 Claude Opus 4.6 水平、拿到下階段 Agent 競爭入場券的底線。 技術層面,Pro 版將全局注意力與滑動窗口注意力的比例推向 7:1 的極致稀疏比,在擴大參數量時控制了長文本的推理成本,並沿用 MTP(多 Token 預測)架構利用富餘算力加速推理。 管理層面,百人規模的 MiMo 團隊中只有三四十人直接投入核心疊代,團隊沒有設立職級,也沒有明確的小組劃分和交付 deadline。遇到訓練 loss 跳變等不穩定的數值問題時,團隊會選擇直接停訓排查,哪怕停機一兩周、耗費數百萬算力成本。 (來源:BlockBeats)
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見
聲明
。
打賞
按讚
回覆
轉發
分享
回覆
請輸入回覆內容
請輸入回覆內容
回覆
暫無回覆
熱門話題
查看更多
#
Gate股票轉倉功能上線
54.57萬 熱度
#
Circle股價重挫17%
417.04萬 熱度
#
預測世界盃葡萄牙VS克羅地亞
17.04萬 熱度
#
GateCard上線積分體系
12.24萬 熱度
#
非農數據倒計時
92.19萬 熱度
已置頂
網站地圖
小米披露1T模型MiMo-V2-Pro訓練細節:動用數千卡,無職級無deadline