Kimi 这次把 Prefill/Decode 解耦玩明白了,跨数据中心还能省 token 成本,有点意思
ME News
Moonshot AI 将 Prefill/Decode 解耦技术扩展至跨数据中心与异构硬件
ME News 消息,4 月 18 日(UTC+8),Moonshot AI 团队近日宣布,其 Prefill(预填充)与 Decode(解码)的解耦技术已成功从单一集群扩展至跨数据中心及异构硬件环境。据文中观点,此举有望显著降低每个token的推理成本。此前,该技术的扩展因 KV cache 传输开销问题而受阻。此次突破的实现,关键依赖于其混合模型 Kimi
Kimi 这次把 Prefill/Decode 解耦玩明白了,跨数据中心还能省 token 成本,有点意思