ドンチャ・ビーティングの監視によると、シャオミの大規模モデルチームのリーダーである羅福麗は、彼女の最初の詳細インタビューで、MiMo-V2-Proモデルのベースが総パラメータ数1兆であり、数千台のGPUを用いて訓練していることを明らかにした。彼女は、1兆規模がクロード・オーパス4.6に近い性能を達成し、次のエージェント競争の段階に進むための基準であると考えている。技術的には、Proバージョンはグローバルアテンションとスライディングウィンドウアテンションの比率を極端なスパース比7:1に押し上げ、長文の推論コストを制御しつつパラメータ数を拡大し続け、引き続きMTP (マルチトークン予測)アーキテクチャを採用して、余剰の計算能力を活用し推論を加速させている。管理面では、MiMoチームの100人中、コアの反復に直接関わるのは約30〜40人であり、職位や明確なグループ分け、納期は設定されていない。訓練損失の突然の変動など不安定な数値問題に直面した場合、チームはトラブルシューティングのために訓練を停止することを選び、1週間や2週間停止しても数百万の計算コストがかかることを厭わない。
Xiaomiは1TモデルMiMo-V2-Proのトレーニング詳細を公開:数千台のGPUを使用、ジョブレベルや締め切りなし
ドンチャ・ビーティングの監視によると、シャオミの大規模モデルチームのリーダーである羅福麗は、彼女の最初の詳細インタビューで、MiMo-V2-Proモデルのベースが総パラメータ数1兆であり、数千台のGPUを用いて訓練していることを明らかにした。彼女は、1兆規模がクロード・オーパス4.6に近い性能を達成し、次のエージェント競争の段階に進むための基準であると考えている。技術的には、Proバージョンはグローバルアテンションとスライディングウィンドウアテンションの比率を極端なスパース比7:1に押し上げ、長文の推論コストを制御しつつパラメータ数を拡大し続け、引き続きMTP (マルチトークン予測)アーキテクチャを採用して、余剰の計算能力を活用し推論を加速させている。管理面では、MiMoチームの100人中、コアの反復に直接関わるのは約30〜40人であり、職位や明確なグループ分け、納期は設定されていない。訓練損失の突然の変動など不安定な数値問題に直面した場合、チームはトラブルシューティングのために訓練を停止することを選び、1週間や2週間停止しても数百万の計算コストがかかることを厭わない。