清華+月之暗面這波把預填充拆出去跑,KV快取走以太網都能扛住,54%吞吐提升確實香,長上下文推理的成本結構要變天了

查看原文
ME News
月之暗面與清華新論文:LLM預填充可跨數據中心,1T模型吞吐升54%
ME News 報導,月之暗面與清華在 arXiv 提出 Prefill-as-a-Service,將大模型推理的預填充階段跨資料中心運行。通過混合注意力模型顯著降低 KV 緩存吞吐,使緩存可經以太網傳輸並回傳本地集群解碼。PrfaaS 架構組建獨立預填充集群,只路由長上下文未命中請求,短請求留本地 PD;並引入長度閾值路由、帶寬感知調度。實測 1T 參數混合模型,吞吐比同構 PD 提升 54%,比朴素異構提升 32%。
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆