99%快取命中成本降幅聽起來誇張,但SWA層次化KV快取確實能把容量撐上去,盈虧平衡線以下才是真護城河

查看原文
币 界 网
羅福莉解密MiMo降本底牌:預填充注意力計算量降至10層全局GQA級別
幣界網報導,羅福莉在X平台公布MiMo-v2.5 API永久降價後的降本機制:與DeepSeek對齊後,高負載推理仍保持盈虧平衡,成本來自混合注意力與層次化KV快取。為實現快取命中成本降99%的目標,Mi推理框架針對SWA做了層次化KV快取優化,測試顯示快取容量提升5倍,成本降80%。她表示,低成本推理能激發終端需求,企業應避免惡性降價,通過算法與推理系統底層協同,將實際運行開銷控制在盈虧平衡線以下。
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆