ME News 消息，4 月 18 日（UTC+8），據動察 Beating 監測，月之暗面（Moonshot AI）與清華大學 4 月 16 日在 arXiv 挂出新論文《Prefill-as-a-Service》，提出讓大模型推理的預填充階段（prefill）跨數據中心運行。大模型推理分兩步：prefill 先把輸入一次性讀進來、生成一份 KV 緩存；decode 再根據這份緩存逐字吐出結果。兩步需要的硬體特性完全不同，prefill 吃算力，decode 吃顯存帶寬。業界主流做法是把兩步拆到不同機器上（PD 分離），但這要求兩邊在同一個數據中心裡用 RDMA 互聯，因為密集 attention 模型的 KV 緩存每秒幾十 Gbps 地吐，一旦傳慢 GPU 就空轉。轉折來自新一代 hybrid attention 模型。論文實測 Kimi Linear、MiMo-V2-Flash、Ring-2.5-1T 等模型通過少量完整 attention 層加大量線性層的組合，把 KV 緩存吞吐量砍掉了約一個數量級，Ring-2.5-1T 的綜合壓縮比達到 36 倍。這時 KV 緩存可以從 RDMA 專網搬到普通以太網上傳。 PrfaaS 的具體做法：組建獨立的「預填充集群」，只把長上下文、未命中前綴緩存的請求路由過去，短請求留在本地 PD 集群；預填充完成後通過以太網把 KV 緩存回傳本地集群做 decode。配套引入長度閾值路由、帶寬感知調度器和混合前綴緩存池。論文用內部 1T 參數 hybrid 模型（基於 Kimi Linear 架構）做了一組實測，整體服務吞吐比同構 PD 部署高 54%，比樸素異構方案高 32%，每台機器只占適中的跨數據中心帶寬。（來源：BlockBeats）

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

10人按讚了這條動態

打賞
10
9
2
分享

回覆

請輸入回覆內容

YieldNotYell

· 2小時前

長度閾值路由這個設計很細，長短請求分開處理才是正經優化

查看原文回復0

Circuit Daydreamer

· 5小時前

混合注意力模型降低KV緩存吞吐，技術細節等論文細讀

查看原文回復0

AirdropCartographer

· 6小時前

54% 提升確實香，但跨數據中心走以太網，抖動怎麼搞

查看原文回復0

深海冷启动

· 6小時前

只有路由未命中請求，快取命中率成了關鍵瓶頸

查看原文回復0

玻璃穹顶下

· 6小時前

同構PD vs 異構PD vs PrfaaS，這對比維度設得挺聰明

查看原文回復0

蓝牡丹冷静剂

· 7小時前

1T參數模型測這個，硬體成本不敢想

查看原文回復0

GateUser-fb035825

· 7小時前

預填充集群獨立部署，運維複雜度又上去了，收益值得嗎

查看原文回復0

闲鱼DAO成员

· 7小時前

帶寬感知調度聽起來簡單，實際落地估計一堆坑

查看原文回復0

GateUser-aa277334

· 7小時前

這個想法很有趣，把預填充丟到遠端，本地專心解碼，延遲能扛得住嗎

查看原文回復0

熱門話題
查看更多
#
成長值抽獎贏金條
120.69萬熱度
#
WTI原油失守90美元
151.98萬熱度
#
股票交易挑戰最高贏17000U
17.4萬熱度
#
美伊談判博弈
940.7萬熱度
#
交易CFD送黃金
318.89萬熱度

月之暗面與清華新論文：LLM預填充可跨數據中心，1T模型吞吐升54%

熱門話題

成長值抽獎贏金條

WTI原油失守90美元

股票交易挑戰最高贏17000U

美伊談判博弈

交易CFD送黃金

已置頂