70层模型算力打平传统小模型,GA/SWA 1:7 的架构设计有点东西

区块律动
罗福莉解密MiMo降本底牌:预填充注意力计算量降至10层全局GQA级别
小米 MiMo-V2.5 在 API 永久降价后,公布通过混合注意力与层次化 KV 缓存实现降本:缓存命中与容量显著提升、缓存成本大幅下降,结合缓存重叠进一步压低开销。输入输出成本下降 60–80%,因 GA/SWA 层比为 1:7,Prefill 阶段仅计算局部窗口,使 70 层模型的算力相当于较少层的传统模型。降价是结构性降本,主张以底层算法与推理系统协同控本,避免价格战。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论
  • 置顶