70層モデルの計算能力は従来の小規模モデルと同等であり、GA/SWA 1:7のアーキテクチャ設計には工夫がある

原文表示
BlockBeatNews
ロフリー、MiMoコスト削減の秘密兵器を解明:事前埋め込み注意力の計算量を10層のグローバルGQAレベルに削減
小米 MiMo-V2.5 において API の永久的な価格引き下げ後、混合アテンションと階層化された KV キャッシュを用いてコスト削減を実現したことを発表:キャッシュヒット率と容量が著しく向上し、キャッシュコストが大幅に低下、キャッシュの重複を組み合わせることでさらにコストを抑制。入力出力コストは 60–80% 減少し、GA/SWA 層比が 1:7 のため、プリフィル段階では局所ウィンドウのみを計算し、70層モデルの計算能力は少ない層の従来モデルに相当する。価格引き下げは構造的なコスト削減であり、基盤となるアルゴリズムと推論システムの協調制御を推進し、価格競争を避ける。
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし