广场
最新
热门
资讯
我的主页
发布
0xLateAgain
2026-05-27 15:06:02
关注
70层模型算力打平传统小模型,GA/SWA 1:7 的架构设计有点东西
区块律动
2026-05-27 14:31:40
罗福莉解密MiMo降本底牌:预填充注意力计算量降至10层全局GQA级别
小米 MiMo-V2.5 在 API 永久降价后,公布通过混合注意力与层次化 KV 缓存实现降本:缓存命中与容量显著提升、缓存成本大幅下降,结合缓存重叠进一步压低开销。输入输出成本下降 60–80%,因 GA/SWA 层比为 1:7,Prefill 阶段仅计算局部窗口,使 70 层模型的算力相当于较少层的传统模型。降价是结构性降本,主张以底层算法与推理系统协同控本,避免价格战。
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见
声明
。
赞赏
点赞
评论
转发
分享
评论
请输入评论内容
请输入评论内容
评论
暂无评论
热门话题
查看更多
#
成长值抽奖赢金条
125.62万 热度
#
WTI原油失守90美元
121.32万 热度
#
股票交易挑战最高赢17000U
21.12万 热度
#
美伊谈判博弈
936.22万 热度
#
交易CFD送黄金
321.66万 热度
置顶
网站地图
70层模型算力打平传统小模型,GA/SWA 1:7 的架构设计有点东西