Cursor опубликовал технологию оптимизации MoE inference Warp Decode, увеличив пропускную способность на GPU Blackwell в 1.84 раза

robot
Генерация тезисов в процессе

Согласно мониторингу 1M AI News, AI-инструмент для программирования Cursor опубликовал технический блог, в котором представил собственный метод ускорения вывода MoE (модели «смешанных экспертов») — Warp Decode. Этот метод ориентирован на сценарии генерации небольшими партиями token на GPU Nvidia Blackwell и переворачивает традиционную параллельную стратегию, центрированную вокруг экспертов, на стратегию, центрированную вокруг результата: каждый warp (минимальная единица планирования, состоящая из 32 параллельных вычислительных единиц) в GPU отвечает лишь за вычисление одного выходного значения, независимо обходит все эксперты, к которым выполняется маршрутизация, и выполняет суммирование в регистрах, без необходимости в какой-либо синхронизации между warp и без промежуточных буферов.

Традиционный MoE-конвейер вывода состоит из 8 стадий, из которых 5 предназначены только для переноса данных для экспертных представлений и не выполняют реальные вычисления. Warp Decode сжимает весь слой вычислений MoE до 2 CUDA kernel, устраняя промежуточные шаги вроде заполнения, разбрасывания, объединения и т. п. В результате для каждого token сокращается чтение/запись промежуточных буферов более чем на 32KB.

По результатам практических испытаний на GPU Nvidia B200 с моделью в стиле Qwen-3, Warp Decode обеспечивает прирост 1.84 раза по сквозной декодирующей пропускной способности, а также благодаря тому, что вычисления выполняются на протяжении всего процесса с точностью BF16/FP32 и избегаются потери, возникающие при промежуточном квантовании, точность вывода оказывается близка к 1.4 раза превосходящей традиционный путь по сравнению с базовой точностью FP32. Что касается использования аппаратной пропускной способности: при размере батча 32 постоянная пропускная способность достигает 3.95 TB/s, что составляет около 58% от пикового значения пропускной способности B200 (6.8 TB/s). Эта оптимизация напрямую ускоряет цикл разработки и частоту релизов разрабатываемой собственными силами программной модели Cursor Composer.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить