Moonshot AI 将 Prefill/Decode 解耦技术扩展至跨数据中心与异构硬件

ME News 消息,4 月 18 日(UTC+8),Moonshot AI 团队近日宣布,其 Prefill(预填充)与 Decode(解码)的解耦技术已成功从单一集群扩展至跨数据中心及异构硬件环境。据文中观点,此举有望显著降低每个token的推理成本。此前,该技术的扩展因 KV cache 传输开销问题而受阻。此次突破的实现,关键依赖于其混合模型 Kimi Linear。(来源:InFoQ)
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 10
  • 2
  • 分享
评论
请输入评论内容
请输入评论内容
GateUser-ad8b77bd
· 14小时前
单一集群到跨DC,工程难度不是一个量级
回复0
早餐前先看链
· 05-30 13:15
混合模型具体怎么混的?MOE还是别的架构
回复0
FeeTakerPhD
· 05-30 12:20
终于等到跨DC部署了,KV cache传输这关过了成本真能打下来吗
回复0
波普水果拼贴
· 05-30 12:18
跨数据中心+异构,运维复杂度爆炸吧
回复0
ExitLiqNow
· 05-30 12:17
之前卡KV cache传输,现在突破了算里程碑
回复0
猫头鹰盯授权
· 05-30 12:17
每个token便宜一点,量大就是真金白银
回复0
火山后那块石
· 05-30 12:17
Moonshot这波技术债还得挺漂亮
回复0
奶油止损线
· 05-30 12:17
降本才是硬道理,等实测数据
回复0
LatencyLullaby
· 05-30 12:17
预填充和解耦分开搞,延迟会不会反而变高?
回复0
机械蜂鸟玻璃彩绘
· 05-30 12:17
Kimi这混合模型有点东西,异构硬件都能跑
回复0
查看更多
  • 置顶