ロフリー、MiMoコスト削減の秘密兵器を解明:事前埋め込み注意力の計算量を10層のグローバルGQAレベルにまで削減

robot
概要作成中
仮想通貨界のニュースによると、ローフリーはXプラットフォーム上で、自社開発の大規模モデルMiMo-v2.5シリーズのAPI永久値下げ後のコスト削減メカニズムを公開しました。彼女は、API価格がDeepSeekに合わせられた後も、小米の高負荷推論エンジンは収支バランスを維持できると明らかにし、コスト削減の主な要因はハイブリッドアテンションアーキテクチャと階層化されたKVキャッシュの最適化にあると述べました。キャッシュヒットコストを99%削減する設計目標に対して、小米の推論フレームワークはスライディングウィンドウアテンションSWAに対する階層化KVキャッシュの最適化を実現し、実証テストでは階層化最適化によりキャッシュのトークン容量を5倍に拡大し、キャッシュコストを80%削減しました。ローフリーは、低コストの推論サービスはエンド端末のインテリジェンス需要を喚起するのに有利であり、大規模モデル企業は盲目的な価格競争を避けるべきだと述べ、アルゴリズムと推論システムの基礎層の協調設計を通じて、実際の運用コストを収支バランスライン以下に抑えるべきだとしています。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 5
  • 2
  • 共有
コメント
コメントを追加
コメントを追加
ASolitaryRockBeforeTheVolcano
· 5時間前
MiMoこの値下げは本当に厳しい、99%のコスト削減はまるでSF映画のように聞こえるが、SWAの最適化には確かに一理ある
原文表示返信0
LendingRateAnxiety
· 5時間前
混合注意力+層次化キャッシュ、このコンビネーションを駆使すると、小規模な企業の推論コストの圧力がさらに増大した。
原文表示返信0
Pragmatists
· 5時間前
5倍キャッシュ容量の向上はどう実現するのか?階層化されたKVキャッシュに関する論文はありますか?詳しく読みたい
原文表示返信0
InstantNoodlesWithContracts
· 5時間前
アルゴリズムとシステム層の協調によるコスト削減こそ正しい解であり、価格だけに頼るのは道がないと、ロフリーはこの点を鋭く見抜いている。
原文表示返信0
PocketValidator
· 5時間前
DeepSeekが整列後も損益分岐点を維持できることは、初期の価格設定に十分な余地を残していたことを示しており、現在は妥当な範囲に戻っていると考えられる。
原文表示返信0