Cursor представляет технологию оптимизации вывода MoE Warp Decode Inference Optimization Technology Warp Decode, достигая улучшения пропускной способности в 1.84 раза на GPU Blackwell

robot
Генерация тезисов в процессе
Согласно мониторингу 1M AI News, инструмент для программирования с использованием ИИ Cursor выпустил технический блог, в котором представил собственный метод ускорения вывода для MoE (Mixture of Experts — «смесь экспертов») под названием Warp Decode. Этот метод нацелен на сценарии генерации токенов малыми пакетами на GPU NVIDIA Blackwell, переворачивая традиционную стратегию параллелизма, ориентированную на экспертов, на подход, ориентированный на вывод: каждый warp (самая маленькая единица планирования, состоящая из 32 параллельных вычислительных устройств) на GPU отвечает за вычисление одного выходного значения, независимо последовательно обходя все направленные эксперты и выполняя накопление в регистрах без какой-либо синхронизации между warp и без промежуточных буферов. Традиционный конвейер MoE-инференса состоит из 8 стадий, из которых 5 предназначены исключительно для переноса данных для экспертных представлений без выполнения реальных вычислений. Warp Decode сжимает весь слой вычислений MoE до 2 CUDA-ядров, устраняя промежуточные шаги вроде заполнения, рассеивания и объединения, сокращая чтение/запись промежуточного буфера более чем на 32KB на токен. При тестировании на GPU NVIDIA B200 с моделью в стиле Qwen-3 Warp Decode обеспечил улучшение пропускной способности декодирования end-to-end в 1.84 раза, а поскольку вычисления выполняются полностью в точности BF16/FP32, он избежал потерь из-за промежуточного квантования, что привело к точности выходных данных, которая в 1.4 раза ближе к эталону FP32 по сравнению с традиционными маршрутами. С точки зрения утилизации пропускной способности оборудования при размере пакета 32 он поддерживал пропускную способность 3.95 TB/s, что примерно соответствует 58% пиковой пропускной способности B200 (6.8 TB/s). Эта оптимизация напрямую ускоряет цикл разработки и темп выпуска версий собственного программного модели Cursor, Composer.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено