Cursor 揭示 MoE 推理优化技术 Warp Decode,在 Blackwell GPU 上实现 1.84 倍吞吐量提升

robot
摘要生成中
据 1M AI News 的监测,AI 编程工具 Cursor 已发布一篇技术博客,介绍其自研的 MoE(Mixture of Experts,专家混合)推理加速方法 Warp Decode。该方法面向 NVIDIA Blackwell GPU 上的小批量令牌生成场景,将传统以专家为中心的并行策略翻转为以输出为中心的方案:GPU 中的每个 warp(由 32 个并行处理单元构成的最小调度单元)负责计算单个输出值,独立遍历所有路由到的专家,并在寄存器中完成累加,无需任何跨 warp 同步或中间缓冲区。传统的 MoE 推理流水线由 8 个阶段组成,其中 5 个阶段仅用于为专家视图移动数据,而不执行实际计算。Warp Decode 将整个 MoE 计算层压缩为 2 个 CUDA 内核,消除了填充、散射与合并等中间步骤,使得每个令牌的中间缓冲区读写减少超过 32KB。通过在 NVIDIA 的 B200 GPU 上、使用类似 Qwen-3 的模型进行测试,Warp Decode 实现了端到端解码吞吐量提升 1.84 倍,并且由于全程在 BF16/FP32 精度下计算,避免了中间量化损失,相比传统路径,输出精度更接近 FP32 基准,达到 1.4 倍。在硬件带宽利用方面,批量大小为 32 时,它维持了 3.95 TB/s 的吞吐量,约为 B200 峰值带宽(6.8 TB/s)的 58%。这一优化可直接加速 Cursor 自研编程模型 Composer 的开发迭代与版本发布节奏。
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论