null
文 | 象先志
ロ福リはXに一つの投稿をした、小米MiMoの値下げ騒動に終止符を打つためだ。
5月26日、小米MiMo公式アカウントはX上に一つの公告を出した:MiMo-V2.5シリーズのAPIは永久値下げ、最大99%の割引。すべてのコンテキスト長の価格は統一され、Tokenパッケージは5〜8倍にアップグレード。
この公告は国内AI界で一週間話題になった。業界の反応は大きく分かれる。最大派はこれを「また一輪の価格戦争」と呼ぶ——この2年、智谱、DeepSeek、字节豆包、阿里通义といった国産大モデルが次々と値下げを繰り返し、誰もが競争している。
もう一派は悲観的な見方:小米は今年の利益が半減したばかりなのに、AIに600億円を投入し、APIを九割も削減する——典型的な「赤字覚悟の市場獲得戦略」。また、DeepSeekの影響が続いていると考える人もいる——後者は業界全体の価格基準を地面に引き下げ、誰もついていけなくなる。
だから、MiMoの責任者であるロ福リは昨晩、5000字の技術ブログを公開し、値下げの工程会計をすべて明らかにした。
「見てくれ、これは実際の工程能力だ。マーケティング手法ではない」。
ロ福リの言うことを理解するには、まずこの99%の値下げが何を意味しているのかを理解しなければならない。
これは全モデルの値下げではない。99%の割引は、Input(Cache Hit)と呼ばれる価格設定に特化している——つまり、「ユーザーが長い対話の中で繰り返し履歴のコンテキストを読む部分」だ。普通の新規入力(No Cache Hit)の割引ははるかに小さく、モデル出力(Output)の割引は最も小さい。
もしあなたがモデルをカフェに例えるなら、これは理解しやすい。
あなたがハーフシュガーラテを注文した場合、カフェには二つのやり方がある:毎回豆を挽き、シロップとミルクを注ぐ方法と、モデルがあなたが毎日同じハーフシュガーラテを飲むことを知っているなら、大きなポットを作って冷蔵庫に入れ、次回は一杯ずつすくって出す方法だ。MiMoは後者を選んだ——ユーザーが繰り返し読む部分を「リアル計算」から「リアル取り出し」に変えたため、この部分の実コストはほぼゼロになり、自然と99%の割引が可能になった。
「リアル取り出し」を実現するには、技術ブログで六つの工程が必要で、それぞれ欠かせない。以下、一つずつ詳しく見ていこう。
工程一:モデルの「記憶」を1/7に圧縮
モデルがあなたと対話する際、各トークンは「中間状態」を計算し、それを次に使うために保存する。これをKVCacheと呼ぶ——モデルの「短期記憶ノート」と理解できる。話すたびに、その話の要約をノートに記録し、次回はそのノートを直接参照し、過去のすべてを最初から聞き直す必要がなくなる。
従来のモデルは各層で「Full Attention」——つまり、各トークンは対話全体のすべてのトークンを見る必要があり、ノートはどんどん厚くなる。MiMo-V2.5-Proは構造を改良し、70層中60層は直近128トークンだけを見る(SWA、スライディングウィンドウアテンション)、残りの10層だけが全体を見ている。
結果、KVCacheのサイズはFull Attentionの1/7に圧縮され、計算量も同じく1/7になる。
これはコスト削減の第一歩だ。例えるなら、会社の全社員に会議記録を覚えるよう求めた結果、皆の脳が追いつかず効率も悪くなる。新規規則は60人の社員の負担を1/7に減らし、残りの10人だけが全履歴を管理する——会社の全体記憶能力は落ちず、効率は7倍向上する。
工程二:SWAで節約した空間を実際に使えるように
構造上、ノートを1/7に圧縮するのは第一歩だが、「理論上の1/7」を「実際の1/7」にするにはもう一つのハードルがある。
従来のKVCacheは「最大想定使用量」に基づき、すべての層に一律にメモリを割り当てる仕組みだ。つまり、60層のSWAは少量のノートだけ必要なのに、システムは「大きなノート」のために全層にメモリを割り当ててしまう——節約した空間が無駄に予約されている状態だ。
ロ福リのチームは、KVCacheを二つの独立したプールに分割した。Full Attentionの10層は「大プール」を使い、全長に応じてメモリを割り当てる。一方、SWAの60層は「小プール」を使い、128トークンのウィンドウだけに割り当てる。
例えるなら、会社が全社員に「100年分の書類を収納できるキャビネット」を配ったが、実際には60人の社員は「一週間分の書類しか入らない小さなキャビネット」が必要だった。大きなキャビネットの99%は空きスペースだったのを、必要に応じて小さなキャビネットに分けた結果、オフィスには5倍以上の社員が収容可能になった——同じGPUでより多くのユーザーを同時にさばける。
この工程は見た目は簡単だが、これがなければSWAの優位性は無駄になってしまう。
工程三:繰り返し読む「古いユーザー」のキャッシュ命中を本当に実現
ノート圧縮と空間の有効活用ができたら、次は古くからの課題、前置きキャッシュの命中率を高める。
多くのユーザーは同じ冒頭部分——同じシステムプロンプト、同じコードベース、同じ長文——を繰り返し使う。システムはこれらを事前に計算し、次回同じ部分に出会ったら再利用する仕組みだ。これを前置きキャッシュと呼ぶ。
しかし、SWAでは落とし穴がある:二つのリクエストのトークンが同じでも、KVはまだ一致しない可能性がある。前置き部分は計算済みでも、SWAのウィンドウ外の部分はすでに淘汰されていることもある。もしシステムが「トークンが同じだから命中」と旧ルールで再利用すると、無効なデータや上書きされたデータを読むことになり、モデルの性能が崩壊する。
ロ福リのチームはルールを「ウィンドウの安全長」にアップグレードした——「あなたが完全に借りられる部分」だけを保証する。
例えるなら、図書館に100万冊の本があり、あなたが借りたいのは三冊の『三体』の全巻だとする。従来の仕組みは「この本はある」と教えるだけだったが、実際には最初の巻だけが棚にあり、後の二巻は借りられている。これでは「偽命中」になり、無駄足を踏むことになる。新ルールは「あなたが完全に借りられる部分」だけを保証し、最初の巻だけを渡し、後の二巻は後から取り寄せる。
一見厳しくて命中率は下がると思われるが、実は逆だ。SWAによりKVCacheのサイズは1/7に圧縮されているため、同じ空間により多くの内容を格納でき、実際の命中率は大きく向上する。
ロ福リのブログには実測データも掲載されている:主流のハーネスフレームワーク下でのサーバーキャッシュの平均命中率は93%、高頻度長周期ユーザーでは95%以上に達している。
この数字の意味を解説すると、95%の「繰り返し読」リクエストはGPU計算不要で、キャッシュから直接取れる。これが99%割引の物理的基盤だ。
工程四:キャッシュをGPU内蔵のSSDに格納
命中率が向上したら、次の問題はこれらのキャッシュをどこに置くかだ。
GPUのメモリ(HBM)は高価で容量も限られる——H100の8枚構成でも640GBしかない。一方、MiMoが保存するKVCacheは数十TB規模になる可能性もある。そこで層化を行う:最新のデータはGPUのメモリ(L1)、やや古いデータはCPUメモリ(L2)、冷えたデータは分散キャッシュ(L3)に格納。
あなたの資金管理と似ている。財布の現金はGPUのメモリ——すぐ使えるが多くは入らない。銀行口座の残高はCPUメモリ——取り出しに30秒かかるが容量は大きい。定期預金はL3の分散キャッシュ——取り出しに2分かかるが安価だ。
業界の一般的なやり方は、L3用に専用のストレージクラスターを構築し、専用のマシンやデータセンターを用意し、月額レンタル料を払うことだ。
しかし、小米のストレージチームは違う。彼らは自社開発のGCacheという分散キャッシュをGPUのSSDに直接展開し、訓練や推論のタスクと混在させている。
普通は大量データ保存のために倉庫を借りるが、小米はGPUマシンのガレージは空いていると気づき、直接データを格納した——月額コストを節約。
技術ブログの原文はこうだ:「追加のストレージコストはゼロ」。
この点は非常に大きい。従来の「AI企業の計算コスト」では、ストレージコストは固定費だった。モデルが大きくなるほど、ユーザーが増えるほど、コストは増加する。GCacheはこのコストを完全に排除する。SWAの小ささと命中率93〜95%を組み合わせると、KVCacheのL3での存続時間(TTL)は数分から数時間、あるいは数日に延びる。TTLが長くなるほど、過去のコンテキストの命中ウィンドウは広がり、キャッシュ命中率は向上し、99%割引の効果もより堅実になる。
工程五:命中したキャッシュリクエストを最短ルートに誘導
キャッシュが使え、検索も安価にできたら、最後の課題は「正しいリクエストを正しいマシンにルーティングする」ことだ。
小米は独自のスケジューリングシステム「LLM-Router」を開発し、三つのことを行った。
一つは親和性スケジューリング。同じプレフィックスのリクエストを同じマシンに振り分け、キャッシュの再利用を最大化。
二つは長さのバケット分け。短いリクエスト(0-64K)、中間(64K-256K)、長い(256K-1M)を別の処理チャネルに振り分け、短いリクエストが長いリクエストに引きずられないように。
三つはTTFT最適化。推論待ちのキューの中で、実計算量の少ないリクエスト(つまりキャッシュヒットが多いリクエスト)を優先的に処理し、「新規入力」による重計算を避ける。
例えるなら、空港の搭乗案内で、同じ目的地の乗客を同じ待合室に集め、荷物の受け取りを共有する——親和性スケジューリング。登場時に登機箱だけの乗客と、大きな荷物を持つ乗客を別のセキュリティ通路に分け、遅い方に引きずられないように——長さのバケット分け。登場時に登機箱だけの乗客を優先し、早く飛行機に乗せる——TTFT最適化。
このスケジューリング戦略は実測でL2キャッシュの命中率を25%向上させ、単一GPUの入力スループットを30%増加させ、長いリクエストのP90遅延を30%低減した。
つまり、同じGPUでより多くのユーザーにサービスできる。値下げのもう一つの論理はここにある——単位算力あたりの効率を高め、ユーザーあたりのコストを下げる。
工程六:モデルの「タイピング」も高速化
前の五つは「読む」側の最適化——ユーザーが繰り返し履歴を読むコストをほぼゼロにした。最後の六つは「書く」側の最適化——モデルが次のトークンを生成する過程の高速化だ。
従来のモデルは一度に一つのトークンしか生成できなかった。MiMoはネイティブで3層のMTP(マルチトークン予測)をサポートし、次に続く3つのトークンを一度に予測できる。途中で正解なら、その間の計算をスキップできる。
例えるなら、従来のタイピングは一文字ずつ打つ——「今日の天気」を打つには4回キーを押す必要がある。MTPは自動補完のように、次に来る1〜2文字を予測し、正解なら次の入力を省略できる。
MiMoのMTPはエージェンシックなシナリオで実測し、128トークンのデコードを2.3倍高速化し、128〜256トークンでは1.5倍の高速化を実現。
この仕組みの意義は、99%の割引がInput(Cache Hit)に向けられている一方、実際のサービスでは入力と出力は同一リクエスト内で発生しているため、出力部分のコストも削減しなければ全体のコスト削減は完結しないことだ。MTPは出力部分も高速化し、全体の収益モデルを完結させる。
六つの工程を一つのコスト削減の連鎖にまとめると:
SWA構造 → KVCache 1/7 → 真の容量解放 → 同一GPUで5倍以上の同時処理 → 前置きキャッシュ命中率93-95% → 95%のリクエストはほぼ計算不要 → GCacheでストレージコストゼロ → スケジューリングで命中リクエストを優先処理 → MTPで生成も高速化 → 単位リクエストあたりGPU時間が桁違いに短縮 → コストが95%以上低下 → 価格は99%ダウン、粗利率はプラスのまま。
どの工程も欠かせない。この六つの工程の積み重ねと実線上の検証結果が、99%値下げの真の根拠だ。
業界の最初の解釈のいずれも一部正しい。ここ2年、中国の大モデル企業間の価格戦争は確かに激しいし、小米の利益半減とAIへの600億投入も事実だし、DeepSeekが業界の価格基準を引き下げているのも事実だ。
しかし、ロ福リがこの技術ブログを公開し、詳細な技術解説を行ったことは、価格戦争に対する反論であり、「技術の問題は技術で解決し、マーケティングの問題はマーケティングで解決する」と示す意図だ。
彼女はブログでこう書いている:MiMo-V2.5シリーズの推論効率は、ある一つのポイントの突破ではなく、多次元の協調最適化の結果だ。ハイブリッドSWAはプリフィルとデコードの両方に恩恵をもたらすが、十分に最適化されていないKVCacheの実装は逆にコストを引き上げる。これを踏まえ、MiMoチームはKVCache管理、階層キャッシュ、前置きキャッシュツリーを体系的に再構築し、SWAのKVCacheの核心問題を解決し、スケジューリング戦略やプリフィル/デコードの連携を最適化した。これらは実運用のシナリオで検証され、理論的な効率優位性を実際の環境に反映させた。これにより、ハイブリッドSWAは長文推論において高い性能と効率を両立できる構造的優位性を発揮している。さらに、MoE(多頭モデル)や多モーダル推論の各種最適化と組み合わせることで、オンライン推論サービスの性能を大きく向上させている。
これはAIエンジニアリングの体系的なアプローチであり、業界全体が参考にすべきコスト削減手法だ。
価格戦争のためにブログを書く必要はなく、実工程の実現こそが重要だ。
1.24M 人気度
1.21M 人気度
51.65K 人気度
213.78K 人気度
9.36M 人気度
Xiaomi MiMoが99%値下げされたのはマーケティングではない!ロフリーがXで反論し、悲観論者を打ち負かす
null
文 | 象先志
ロ福リはXに一つの投稿をした、小米MiMoの値下げ騒動に終止符を打つためだ。
5月26日、小米MiMo公式アカウントはX上に一つの公告を出した:MiMo-V2.5シリーズのAPIは永久値下げ、最大99%の割引。すべてのコンテキスト長の価格は統一され、Tokenパッケージは5〜8倍にアップグレード。
この公告は国内AI界で一週間話題になった。業界の反応は大きく分かれる。最大派はこれを「また一輪の価格戦争」と呼ぶ——この2年、智谱、DeepSeek、字节豆包、阿里通义といった国産大モデルが次々と値下げを繰り返し、誰もが競争している。
もう一派は悲観的な見方:小米は今年の利益が半減したばかりなのに、AIに600億円を投入し、APIを九割も削減する——典型的な「赤字覚悟の市場獲得戦略」。また、DeepSeekの影響が続いていると考える人もいる——後者は業界全体の価格基準を地面に引き下げ、誰もついていけなくなる。
だから、MiMoの責任者であるロ福リは昨晩、5000字の技術ブログを公開し、値下げの工程会計をすべて明らかにした。
「見てくれ、これは実際の工程能力だ。マーケティング手法ではない」。
ロ福リの言うことを理解するには、まずこの99%の値下げが何を意味しているのかを理解しなければならない。
これは全モデルの値下げではない。99%の割引は、Input(Cache Hit)と呼ばれる価格設定に特化している——つまり、「ユーザーが長い対話の中で繰り返し履歴のコンテキストを読む部分」だ。普通の新規入力(No Cache Hit)の割引ははるかに小さく、モデル出力(Output)の割引は最も小さい。
もしあなたがモデルをカフェに例えるなら、これは理解しやすい。
あなたがハーフシュガーラテを注文した場合、カフェには二つのやり方がある:毎回豆を挽き、シロップとミルクを注ぐ方法と、モデルがあなたが毎日同じハーフシュガーラテを飲むことを知っているなら、大きなポットを作って冷蔵庫に入れ、次回は一杯ずつすくって出す方法だ。MiMoは後者を選んだ——ユーザーが繰り返し読む部分を「リアル計算」から「リアル取り出し」に変えたため、この部分の実コストはほぼゼロになり、自然と99%の割引が可能になった。
「リアル取り出し」を実現するには、技術ブログで六つの工程が必要で、それぞれ欠かせない。以下、一つずつ詳しく見ていこう。
工程一:モデルの「記憶」を1/7に圧縮
モデルがあなたと対話する際、各トークンは「中間状態」を計算し、それを次に使うために保存する。これをKVCacheと呼ぶ——モデルの「短期記憶ノート」と理解できる。話すたびに、その話の要約をノートに記録し、次回はそのノートを直接参照し、過去のすべてを最初から聞き直す必要がなくなる。
従来のモデルは各層で「Full Attention」——つまり、各トークンは対話全体のすべてのトークンを見る必要があり、ノートはどんどん厚くなる。MiMo-V2.5-Proは構造を改良し、70層中60層は直近128トークンだけを見る(SWA、スライディングウィンドウアテンション)、残りの10層だけが全体を見ている。
結果、KVCacheのサイズはFull Attentionの1/7に圧縮され、計算量も同じく1/7になる。
これはコスト削減の第一歩だ。例えるなら、会社の全社員に会議記録を覚えるよう求めた結果、皆の脳が追いつかず効率も悪くなる。新規規則は60人の社員の負担を1/7に減らし、残りの10人だけが全履歴を管理する——会社の全体記憶能力は落ちず、効率は7倍向上する。
工程二:SWAで節約した空間を実際に使えるように
構造上、ノートを1/7に圧縮するのは第一歩だが、「理論上の1/7」を「実際の1/7」にするにはもう一つのハードルがある。
従来のKVCacheは「最大想定使用量」に基づき、すべての層に一律にメモリを割り当てる仕組みだ。つまり、60層のSWAは少量のノートだけ必要なのに、システムは「大きなノート」のために全層にメモリを割り当ててしまう——節約した空間が無駄に予約されている状態だ。
ロ福リのチームは、KVCacheを二つの独立したプールに分割した。Full Attentionの10層は「大プール」を使い、全長に応じてメモリを割り当てる。一方、SWAの60層は「小プール」を使い、128トークンのウィンドウだけに割り当てる。
例えるなら、会社が全社員に「100年分の書類を収納できるキャビネット」を配ったが、実際には60人の社員は「一週間分の書類しか入らない小さなキャビネット」が必要だった。大きなキャビネットの99%は空きスペースだったのを、必要に応じて小さなキャビネットに分けた結果、オフィスには5倍以上の社員が収容可能になった——同じGPUでより多くのユーザーを同時にさばける。
この工程は見た目は簡単だが、これがなければSWAの優位性は無駄になってしまう。
工程三:繰り返し読む「古いユーザー」のキャッシュ命中を本当に実現
ノート圧縮と空間の有効活用ができたら、次は古くからの課題、前置きキャッシュの命中率を高める。
多くのユーザーは同じ冒頭部分——同じシステムプロンプト、同じコードベース、同じ長文——を繰り返し使う。システムはこれらを事前に計算し、次回同じ部分に出会ったら再利用する仕組みだ。これを前置きキャッシュと呼ぶ。
しかし、SWAでは落とし穴がある:二つのリクエストのトークンが同じでも、KVはまだ一致しない可能性がある。前置き部分は計算済みでも、SWAのウィンドウ外の部分はすでに淘汰されていることもある。もしシステムが「トークンが同じだから命中」と旧ルールで再利用すると、無効なデータや上書きされたデータを読むことになり、モデルの性能が崩壊する。
ロ福リのチームはルールを「ウィンドウの安全長」にアップグレードした——「あなたが完全に借りられる部分」だけを保証する。
例えるなら、図書館に100万冊の本があり、あなたが借りたいのは三冊の『三体』の全巻だとする。従来の仕組みは「この本はある」と教えるだけだったが、実際には最初の巻だけが棚にあり、後の二巻は借りられている。これでは「偽命中」になり、無駄足を踏むことになる。新ルールは「あなたが完全に借りられる部分」だけを保証し、最初の巻だけを渡し、後の二巻は後から取り寄せる。
一見厳しくて命中率は下がると思われるが、実は逆だ。SWAによりKVCacheのサイズは1/7に圧縮されているため、同じ空間により多くの内容を格納でき、実際の命中率は大きく向上する。
ロ福リのブログには実測データも掲載されている:主流のハーネスフレームワーク下でのサーバーキャッシュの平均命中率は93%、高頻度長周期ユーザーでは95%以上に達している。
この数字の意味を解説すると、95%の「繰り返し読」リクエストはGPU計算不要で、キャッシュから直接取れる。これが99%割引の物理的基盤だ。
工程四:キャッシュをGPU内蔵のSSDに格納
命中率が向上したら、次の問題はこれらのキャッシュをどこに置くかだ。
GPUのメモリ(HBM)は高価で容量も限られる——H100の8枚構成でも640GBしかない。一方、MiMoが保存するKVCacheは数十TB規模になる可能性もある。そこで層化を行う:最新のデータはGPUのメモリ(L1)、やや古いデータはCPUメモリ(L2)、冷えたデータは分散キャッシュ(L3)に格納。
あなたの資金管理と似ている。財布の現金はGPUのメモリ——すぐ使えるが多くは入らない。銀行口座の残高はCPUメモリ——取り出しに30秒かかるが容量は大きい。定期預金はL3の分散キャッシュ——取り出しに2分かかるが安価だ。
業界の一般的なやり方は、L3用に専用のストレージクラスターを構築し、専用のマシンやデータセンターを用意し、月額レンタル料を払うことだ。
しかし、小米のストレージチームは違う。彼らは自社開発のGCacheという分散キャッシュをGPUのSSDに直接展開し、訓練や推論のタスクと混在させている。
普通は大量データ保存のために倉庫を借りるが、小米はGPUマシンのガレージは空いていると気づき、直接データを格納した——月額コストを節約。
技術ブログの原文はこうだ:「追加のストレージコストはゼロ」。
この点は非常に大きい。従来の「AI企業の計算コスト」では、ストレージコストは固定費だった。モデルが大きくなるほど、ユーザーが増えるほど、コストは増加する。GCacheはこのコストを完全に排除する。SWAの小ささと命中率93〜95%を組み合わせると、KVCacheのL3での存続時間(TTL)は数分から数時間、あるいは数日に延びる。TTLが長くなるほど、過去のコンテキストの命中ウィンドウは広がり、キャッシュ命中率は向上し、99%割引の効果もより堅実になる。
工程五:命中したキャッシュリクエストを最短ルートに誘導
キャッシュが使え、検索も安価にできたら、最後の課題は「正しいリクエストを正しいマシンにルーティングする」ことだ。
小米は独自のスケジューリングシステム「LLM-Router」を開発し、三つのことを行った。
一つは親和性スケジューリング。同じプレフィックスのリクエストを同じマシンに振り分け、キャッシュの再利用を最大化。
二つは長さのバケット分け。短いリクエスト(0-64K)、中間(64K-256K)、長い(256K-1M)を別の処理チャネルに振り分け、短いリクエストが長いリクエストに引きずられないように。
三つはTTFT最適化。推論待ちのキューの中で、実計算量の少ないリクエスト(つまりキャッシュヒットが多いリクエスト)を優先的に処理し、「新規入力」による重計算を避ける。
例えるなら、空港の搭乗案内で、同じ目的地の乗客を同じ待合室に集め、荷物の受け取りを共有する——親和性スケジューリング。登場時に登機箱だけの乗客と、大きな荷物を持つ乗客を別のセキュリティ通路に分け、遅い方に引きずられないように——長さのバケット分け。登場時に登機箱だけの乗客を優先し、早く飛行機に乗せる——TTFT最適化。
このスケジューリング戦略は実測でL2キャッシュの命中率を25%向上させ、単一GPUの入力スループットを30%増加させ、長いリクエストのP90遅延を30%低減した。
つまり、同じGPUでより多くのユーザーにサービスできる。値下げのもう一つの論理はここにある——単位算力あたりの効率を高め、ユーザーあたりのコストを下げる。
工程六:モデルの「タイピング」も高速化
前の五つは「読む」側の最適化——ユーザーが繰り返し履歴を読むコストをほぼゼロにした。最後の六つは「書く」側の最適化——モデルが次のトークンを生成する過程の高速化だ。
従来のモデルは一度に一つのトークンしか生成できなかった。MiMoはネイティブで3層のMTP(マルチトークン予測)をサポートし、次に続く3つのトークンを一度に予測できる。途中で正解なら、その間の計算をスキップできる。
例えるなら、従来のタイピングは一文字ずつ打つ——「今日の天気」を打つには4回キーを押す必要がある。MTPは自動補完のように、次に来る1〜2文字を予測し、正解なら次の入力を省略できる。
MiMoのMTPはエージェンシックなシナリオで実測し、128トークンのデコードを2.3倍高速化し、128〜256トークンでは1.5倍の高速化を実現。
この仕組みの意義は、99%の割引がInput(Cache Hit)に向けられている一方、実際のサービスでは入力と出力は同一リクエスト内で発生しているため、出力部分のコストも削減しなければ全体のコスト削減は完結しないことだ。MTPは出力部分も高速化し、全体の収益モデルを完結させる。
六つの工程を一つのコスト削減の連鎖にまとめると:
SWA構造 → KVCache 1/7 → 真の容量解放 → 同一GPUで5倍以上の同時処理 → 前置きキャッシュ命中率93-95% → 95%のリクエストはほぼ計算不要 → GCacheでストレージコストゼロ → スケジューリングで命中リクエストを優先処理 → MTPで生成も高速化 → 単位リクエストあたりGPU時間が桁違いに短縮 → コストが95%以上低下 → 価格は99%ダウン、粗利率はプラスのまま。
どの工程も欠かせない。この六つの工程の積み重ねと実線上の検証結果が、99%値下げの真の根拠だ。
業界の最初の解釈のいずれも一部正しい。ここ2年、中国の大モデル企業間の価格戦争は確かに激しいし、小米の利益半減とAIへの600億投入も事実だし、DeepSeekが業界の価格基準を引き下げているのも事実だ。
しかし、ロ福リがこの技術ブログを公開し、詳細な技術解説を行ったことは、価格戦争に対する反論であり、「技術の問題は技術で解決し、マーケティングの問題はマーケティングで解決する」と示す意図だ。
彼女はブログでこう書いている:MiMo-V2.5シリーズの推論効率は、ある一つのポイントの突破ではなく、多次元の協調最適化の結果だ。ハイブリッドSWAはプリフィルとデコードの両方に恩恵をもたらすが、十分に最適化されていないKVCacheの実装は逆にコストを引き上げる。これを踏まえ、MiMoチームはKVCache管理、階層キャッシュ、前置きキャッシュツリーを体系的に再構築し、SWAのKVCacheの核心問題を解決し、スケジューリング戦略やプリフィル/デコードの連携を最適化した。これらは実運用のシナリオで検証され、理論的な効率優位性を実際の環境に反映させた。これにより、ハイブリッドSWAは長文推論において高い性能と効率を両立できる構造的優位性を発揮している。さらに、MoE(多頭モデル)や多モーダル推論の各種最適化と組み合わせることで、オンライン推論サービスの性能を大きく向上させている。
これはAIエンジニアリングの体系的なアプローチであり、業界全体が参考にすべきコスト削減手法だ。
価格戦争のためにブログを書く必要はなく、実工程の実現こそが重要だ。