月之暗面與清華新論文:LLM預填充可跨數據中心,1T模型吞吐升54%

robot
摘要生成中
ME News 消息,4 月 18 日(UTC+8),據 動察 Beating 監測,月之暗面(Moonshot AI)與清華大學 4 月 16 日在 arXiv 挂出新論文《Prefill-as-a-Service》,提出讓大模型推理的預填充階段(prefill)跨數據中心運行。 大模型推理分兩步:prefill 先把輸入一次性讀進來、生成一份 KV 緩存;decode 再根據這份緩存逐字吐出結果。兩步需要的硬體特性完全不同,prefill 吃算力,decode 吃顯存帶寬。業界主流做法是把兩步拆到不同機器上(PD 分離),但這要求兩邊在同一個數據中心裡用 RDMA 互聯,因為密集 attention 模型的 KV 緩存每秒幾十 Gbps 地吐,一旦傳慢 GPU 就空轉。 轉折來自新一代 hybrid attention 模型。論文實測 Kimi Linear、MiMo-V2-Flash、Ring-2.5-1T 等模型通過少量完整 attention 層加大量線性層的組合,把 KV 緩存吞吐量砍掉了約一個數量級,Ring-2.5-1T 的綜合壓縮比達到 36 倍。這時 KV 緩存可以從 RDMA 專網搬到普通以太網上傳。 PrfaaS 的具體做法:組建獨立的「預填充集群」,只把長上下文、未命中前綴緩存的請求路由過去,短請求留在本地 PD 集群;預填充完成後通過以太網把 KV 緩存回傳本地集群做 decode。配套引入長度閾值路由、帶寬感知調度器和混合前綴緩存池。論文用內部 1T 參數 hybrid 模型(基於 Kimi Linear 架構)做了一組實測,整體服務吞吐比同構 PD 部署高 54%,比樸素異構方案高 32%,每台機器只占適中的跨數據中心帶寬。 (來源:BlockBeats)
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 9
  • 2
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
YieldNotYell
· 2小時前
長度閾值路由這個設計很細,長短請求分開處理才是正經優化
查看原文回復0
Circuit Daydreamer
· 5小時前
混合注意力模型降低KV緩存吞吐,技術細節等論文細讀
查看原文回復0
AirdropCartographer
· 6小時前
54% 提升確實香,但跨數據中心走以太網,抖動怎麼搞
查看原文回復0
深海冷启动
· 6小時前
只有路由未命中請求,快取命中率成了關鍵瓶頸
查看原文回復0
玻璃穹顶下
· 6小時前
同構PD vs 異構PD vs PrfaaS,這對比維度設得挺聰明
查看原文回復0
蓝牡丹冷静剂
· 7小時前
1T參數模型測這個,硬體成本不敢想
查看原文回復0
GateUser-fb035825
· 7小時前
預填充集群獨立部署,運維複雜度又上去了,收益值得嗎
查看原文回復0
闲鱼DAO成员
· 7小時前
帶寬感知調度聽起來簡單,實際落地估計一堆坑
查看原文回復0
GateUser-aa277334
· 7小時前
這個想法很有趣,把預填充丟到遠端,本地專心解碼,延遲能扛得住嗎
查看原文回復0
查看更多