99%缓存命中成本降幅听着夸张,但SWA层次化KV缓存确实能把容量怼上去,盈亏平衡线以下才是真护城河

币 界 网
罗福莉解密MiMo降本底牌:预填充注意力计算量降至10层全局GQA级别
币界网报道,罗福莉在X平台公布MiMo-v2.5 API永久降价后的降本机制:与DeepSeek对齐后,高负载推理仍保持盈亏平衡,成本来自混合注意力与层次化KV缓存。为实现缓存命中成本降99%的目标,Mi推理框架针对SWA做了层次化KV缓存优化,测试显示缓存容量提升5倍,成本降80%。她表示,低成本推理能激发终端需求,企业应避免恶性降价,通过算法与推理系统底层协同,将实际运行开销控制在盈亏平衡线以下。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论