99%のキャッシュヒットコスト削減は誇張して聞こえるかもしれませんが、SWA階層化KVキャッシュは確かに容量を増やすことができ、損益分岐点以下こそが本当の堀となります

原文表示
CoinNetwork
ロフリー、MiMoコスト削減の秘密兵器を解明:事前埋め込み注意力の計算量を10層のグローバルGQAレベルにまで削減
币界网報道、ローフリーがXプラットフォームでMiMo-v2.5 APIの永久値下げ後のコスト削減メカニズムを発表:DeepSeekと整合した後、高負荷推論でも収支バランスを維持し、コストはハイブリッドアテンションと階層化されたKVキャッシュから生じる。キャッシュヒットコストを99%削減する目標を達成するために、Mi推論フレームワークはSWA向けに階層化されたKVキャッシュの最適化を行い、テストではキャッシュ容量を5倍に増加させ、コストを80%削減した。彼女は、低コスト推論がエンドユーザーの需要を喚起できると述べ、企業は悪性な値下げを避けるべきだとし、アルゴリズムと推論システムの基底層と連携させて、実際の運用コストを収支バランスライン以下に抑えるべきだと述べた。
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし