ME News 消息，4 月 18 日（UTC+8），据动察 Beating 监测，月之暗面（Moonshot AI）与清华大学 4 月 16 日在 arXiv 挂出新论文《Prefill-as-a-Service》，提出让大模型推理的预填充阶段（prefill）跨数据中心运行。大模型推理分两步：prefill 先把输入一次性读进来、生成一份 KV 缓存；decode 再根据这份缓存逐字吐出结果。两步需要的硬件特性完全不同，prefill 吃算力，decode 吃显存带宽。业界主流做法是把两步拆到不同机器上（PD 分离），但这要求两边在同一个数据中心里用 RDMA 互联，因为密集 attention 模型的 KV 缓存每秒几十 Gbps 地吐，一旦传慢 GPU 就空转。转折来自新一代 hybrid attention 模型。论文实测 Kimi Linear、MiMo-V2-Flash、Ring-2.5-1T 等模型通过少量完整 attention 层加大量线性层的组合，把 KV 缓存吞吐量砍掉了约一个数量级，Ring-2.5-1T 的综合压缩比达到 36 倍。这时 KV 缓存可以从 RDMA 专网搬到普通以太网上传。 PrfaaS 的具体做法：组建独立的「预填充集群」，只把长上下文、未命中前缀缓存的请求路由过去，短请求留在本地 PD 集群；预填充完成后通过以太网把 KV 缓存回传本地集群做 decode。配套引入长度阈值路由、带宽感知调度器和混合前缀缓存池。论文用内部 1T 参数 hybrid 模型（基于 Kimi Linear 架构）做了一组实测，整体服务吞吐比同构 PD 部署高 54%，比朴素异构方案高 32%，每台机器只占适中的跨数据中心带宽。（来源：BlockBeats）

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

7人点赞了这条动态

赞赏
7
9
2
分享

请输入评论内容

烤面包的波动率

· 2小时前

短请求留本地PD很合理，毕竟延迟敏感，长上下文才值得折腾

Dust Collector

· 4小时前

朴素异构提升32%，同构PD提升54%，对比组设置得挺扎实的

玻璃心做市商

· 4小时前

清华+月之暗面，国产大模型infra开始卷到全球第一梯队了

彩窗太阳阵列

· 4小时前

月暗这波操作有点意思，把预填充甩出去，本地专心解码，延迟和成本双赢

镜面球反射

· 4小时前

混合注意力模型是核心啊，KV缓存能走以太网传输，这压缩率得多狠

松针与冷风

· 4小时前

带宽感知调度听着简单，实际落地全是坑，他们居然做出来了

金鱼在冰面下

· 5小时前

1T参数模型都跑通了，说明这套架构scalability没问题，不是小打小闹

MarginMoth

· 5小时前

PrfaaS这名字起的，Prefill as a Service，云计算那套搬到大模型推理了

GateUser-78acf617

· 5小时前

54%吞吐提升，这数据看着就舒服，异构架构终于不是纸上谈兵了

热门话题
查看更多
#
成长值抽奖赢金条
122.98万热度
#
WTI原油失守90美元
154.32万热度
#
股票交易挑战最高赢17000U
19.05万热度
#
美伊谈判博弈
941.73万热度
#
交易CFD送黄金
320.92万热度

月之暗面与清华新论文：LLM预填充可跨数据中心，1T模型吞吐升54%

热门话题

成长值抽奖赢金条

WTI原油失守90美元

股票交易挑战最高赢17000U

美伊谈判博弈

交易CFD送黄金

置顶