ME News メッセージ、4月24日(UTC+8)、動察 Beating のモニタリングによると、Xiaomi大規模モデルチームリーダーの羅福莉氏が初の詳細インタビューで明らかにしたところによると、MiMo-V2-Pro モデルのベース総パラメータ数は1Tに達し、訓練には数千のGPUが使用された。彼女は、1T規模は現在Claude Opus 4.6のレベルに近づき、次のフェーズのAgent競争の参加チケットを獲得するための最低条件であると考えている。技術面では、Pro版はグローバルアテンションとスライディングウィンドウアテンションの比率を7:1の極端なスパース比に押し上げ、パラメータ数を増やしながら長文の推論コストを制御し、MTP(マルチトークン予測)アーキテクチャを継続して余剰演算力を活用し推論を高速化している。管理面では、100人規模のMiMoチームのうち、直接コアの反復に投入されているのは30〜40人だけで、チームには職級は設定されておらず、明確なグループ分けや納期もない。訓練中に損失の急変などの不安定な数値問題が発生した場合、チームは訓練を直接停止して調査することを選択し、1〜2週間停止して数百万の演算コストを費やすこともある。(出典:BlockBeats)
小米が1TモデルMiMo-V2-Proのトレーニング詳細を開示:数千カードを動員、職階もデッドラインもなし