小米MiMo首次公开模型推理系统全链路优化技术细节

robot
摘要生成中
火星财经消息 5月30日消息,小米正式公开MiMo-V2.5系列模型的推理系统全链路优化方案。团队围绕 Hybrid SWA + MoE + 多模态的复合架构,系统性重构了从KVCache管理、分级缓存、前缀缓存到调度策略与Prefill/Decode链路的完整推理栈,KVCache存储压缩至同级方案的约1/7,在长序列场景下推理成本大幅下降——这是本次降价的核心技术基础。5月27日,MiMo-V2.5 系列API完成永久降价,最高降幅达99%,不区分输入长度。(广角观察)
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 9
  • 1
  • 分享
评论
请输入评论内容
请输入评论内容
夜跑的Gas费
· 7小时前
小米这波推理成本砍到脚脖子了,99%降幅是认真的吗
回复0
QueuePosition
· 7小时前
从芯片到框架到API定价全链条打通,小米这套打法很像当年手机市场的性价比路线
回复0
PerpColdHands
· 8小时前
等一手实测,1/7的KVCache压缩比如果属实,显存瓶颈能松口气了
回复0
废墟里的红电话亭
· 8小时前
MoE架构+SWA注意力,这套配置在开源界也算第一梯队了,小米这次技术披露挺敞亮
回复0
蓝湖俯瞰者
· 8小时前
推理成本结构变了,下游应用的价格锚点也得重估,整个生态可能要洗牌
回复0
顽强的金鱼
· 8小时前
不区分输入长度这个点很狠,长文本用户狂喜,再也不用精打细算token了
回复0
玻璃穹顶宇宙
· 8小时前
Prefill/Decode链路都动了,分级缓存+前缀缓存的设计很细,看来是真实业务打磨过的
回复0
二级市场叛逃者
· 8小时前
小米这是要把大模型推理做成白菜价?API降价99%让别家怎么跟
回复0
半融冰淇淋
· 8小时前
5月27日永久降价,不区分输入长度——这定价策略直接把按token计费的老玩法掀桌了
回复0
查看更多