月之暗面与清华新论文:LLM预填充可跨数据中心,1T模型吞吐升54%

robot
摘要生成中
ME News 消息,4 月 18 日(UTC+8),据 动察 Beating 监测,月之暗面(Moonshot AI)与清华大学 4 月 16 日在 arXiv 挂出新论文《Prefill-as-a-Service》,提出让大模型推理的预填充阶段(prefill)跨数据中心运行。 大模型推理分两步:prefill 先把输入一次性读进来、生成一份 KV 缓存;decode 再根据这份缓存逐字吐出结果。两步需要的硬件特性完全不同,prefill 吃算力,decode 吃显存带宽。业界主流做法是把两步拆到不同机器上(PD 分离),但这要求两边在同一个数据中心里用 RDMA 互联,因为密集 attention 模型的 KV 缓存每秒几十 Gbps 地吐,一旦传慢 GPU 就空转。 转折来自新一代 hybrid attention 模型。论文实测 Kimi Linear、MiMo-V2-Flash、Ring-2.5-1T 等模型通过少量完整 attention 层加大量线性层的组合,把 KV 缓存吞吐量砍掉了约一个数量级,Ring-2.5-1T 的综合压缩比达到 36 倍。这时 KV 缓存可以从 RDMA 专网搬到普通以太网上传。 PrfaaS 的具体做法:组建独立的「预填充集群」,只把长上下文、未命中前缀缓存的请求路由过去,短请求留在本地 PD 集群;预填充完成后通过以太网把 KV 缓存回传本地集群做 decode。配套引入长度阈值路由、带宽感知调度器和混合前缀缓存池。论文用内部 1T 参数 hybrid 模型(基于 Kimi Linear 架构)做了一组实测,整体服务吞吐比同构 PD 部署高 54%,比朴素异构方案高 32%,每台机器只占适中的跨数据中心带宽。 (来源:BlockBeats)
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 9
  • 2
  • 分享
评论
请输入评论内容
请输入评论内容
烤面包的波动率
· 2小时前
短请求留本地PD很合理,毕竟延迟敏感,长上下文才值得折腾
回复0
Dust Collector
· 4小时前
朴素异构提升32%,同构PD提升54%,对比组设置得挺扎实的
回复0
玻璃心做市商
· 4小时前
清华+月之暗面,国产大模型infra开始卷到全球第一梯队了
回复0
彩窗太阳阵列
· 4小时前
月暗这波操作有点意思,把预填充甩出去,本地专心解码,延迟和成本双赢
回复0
镜面球反射
· 4小时前
混合注意力模型是核心啊,KV缓存能走以太网传输,这压缩率得多狠
回复0
松针与冷风
· 4小时前
带宽感知调度听着简单,实际落地全是坑,他们居然做出来了
回复0
金鱼在冰面下
· 5小时前
1T参数模型都跑通了,说明这套架构scalability没问题,不是小打小闹
回复0
MarginMoth
· 5小时前
PrfaaS这名字起的,Prefill as a Service,云计算那套搬到大模型推理了
回复0
GateUser-78acf617
· 5小时前
54%吞吐提升,这数据看着就舒服,异构架构终于不是纸上谈兵了
回复0
查看更多