罗福莉解密MiMo降本底牌:预填充注意力计算量降至10层全局GQA级别

robot
摘要生成中
币界网消息,罗福莉在X平台公布了自研大模型MiMo-v2.5系列实施API永久性降价后的算法降本机制。她透露,在API价格对齐DeepSeek后,小米的高负载推理引擎仍能保持盈亏平衡,成本降低主要来自混合注意力架构与层次化KV缓存优化。针对缓存命中成本降低99%的设计目标,小米推理框架实现了针对滑动窗口注意力SWA的层次化KV缓存优化,生产测试显示,层次化优化将缓存的token容量提升至5倍,降低了80%的缓存成本。罗福莉表示,低成本的推理服务有利于激发终端智能需求,大模型企业应当避免盲目的价格战,通过算法与推理系统的底层协同设计,将实际运行开销控制在盈亏平衡线以下。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 5
  • 2
  • 分享
评论
请输入评论内容
请输入评论内容
火山前孤石
· 5小时前
MiMo这波降价是真狠,99%成本降幅听着像科幻片,但SWA优化确实有点东西
回复0
借贷利率焦虑症
· 5小时前
混合注意力+层次化缓存,这套组合拳打下来,小厂推理成本压力更大了
回复0
实干派者
· 5小时前
5倍缓存容量提升怎么做到的?层次化KV缓存有论文吗想细读
回复0
泡面配合约
· 5小时前
算法和系统层协同降本才是正解,光卷价格没出路,罗福莉这点看得很透
回复0
Pocket Validator
· 5小时前
DeepSeek对齐后还能盈亏平衡,说明前期定价确实留了空间,现在算是回归合理
回复0