Cursor 揭示 MoE 推理優化技術 Warp Decode,在 Blackwell GPU 上實現 1.84 倍的吞吐量提升

robot
摘要生成中
根據 1M AI News 的監測,AI 程式開發工具 Cursor 已發布一篇技術部落格,介紹其自研的 MoE(Mixture of Experts,專家混合)推理加速方法:Warp Decode。該方法聚焦於 NVIDIA 的 Blackwell GPU 上的小批量 token 生成場景,將傳統以專家為中心的平行策略翻轉為以輸出為中心的作法:GPU 中的每個 warp(最小的排程單元,由 32 個平行處理單元組成)負責計算單一輸出值,並在不需要跨 warp 同步或使用中間緩衝區的情況下,獨立遍歷所有被路由到的專家,且在暫存器中完成累加。傳統的 MoE 推理流程包含 8 個階段,其中有 5 個階段僅用於移動資料以供專家視圖使用,而不進行實際運算。Warp Decode 將整個 MoE 計算層壓縮為 2 個 CUDA 核心,消除了 padding、scattering 與 merging 等中間步驟,將每個 token 的中間緩衝區讀寫量降低了超過 32KB。Warp Decode 在搭配 NVIDIA 的 B200 GPU、並使用 Qwen-3 樣式模型進行測試後,端到端解碼吞吐量提升了 1.84 倍;並且由於計算完全在 BF16/FP32 精度下完成,它避免了中間量化造成的損失,使輸出精度相較傳統路徑更接近 FP32 基準,與傳統相比縮近了 1.4 倍的差距。就硬體頻寬利用率而言,在批量大小為 32 的情況下,它維持了 3.95 TB/s 的吞吐量,約為 B200 峰值頻寬(6.8 TB/s)的 58%。此項最佳化可直接加速 Cursor 自研程式模型 Composer 的開發迭代與版本發布節奏。
查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆