仮想通貨界のニュースによると、ローフリーはXプラットフォーム上で、自社開発の大規模モデルMiMo-v2.5シリーズのAPI永久値下げ後のコスト削減メカニズムを公開しました。彼女は、API価格がDeepSeekに合わせられた後も、小米の高負荷推論エンジンは収支バランスを維持できると明らかにし、コスト削減の主な要因はハイブリッドアテンションアーキテクチャと階層化されたKVキャッシュの最適化にあると述べました。キャッシュヒットコストを99%削減する設計目標に対して、小米の推論フレームワークはスライディングウィンドウアテンションSWAに対する階層化KVキャッシュの最適化を実現し、実証テストでは階層化最適化によりキャッシュのトークン容量を5倍に拡大し、キャッシュコストを80%削減しました。ローフリーは、低コストの推論サービスはエンド端末のインテリジェンス需要を喚起するのに有利であり、大規模モデル企業は盲目的な価格競争を避けるべきだと述べ、アルゴリズムと推論システムの基礎層の協調設計を通じて、実際の運用コストを収支バランスライン以下に抑えるべきだとしています。
ロフリー、MiMoコスト削減の秘密兵器を解明:事前埋め込み注意力の計算量を10層のグローバルGQAレベルにまで削減