Cursor розкриває технологію оптимізації виведення MoE Warp Decode, досягаючи 1.84-кратного покращення пропускної здатності на GPU Blackwell

robot
Генерація анотацій у процесі
Згідно з моніторингом 1M AI News, інструмент для програмування з використанням ШІ Cursor випустив технічний блог із презентацією власного методу прискорення інференсу MoE (Mixture of Experts — суміш експертів) під назвою Warp Decode. Цей метод орієнтований на сценарії генерації токенів із малим розміром партії на GPU NVIDIA Blackwell, перевертаючи традиційну експертно-центричну паралельну стратегію на вихідно-центричний підхід: кожен warp (найменша одиниця планування, що складається з 32 паралельних процесорних одиниць) на GPU відповідає за обчислення одного значення виходу, незалежно послідовно обходячи всі маршрутизовані експерти та виконуючи акумуляцію в регістрах без будь-якої синхронізації між warps або проміжних буферів. Традиційний інференсний пайплайн MoE складається з 8 стадій, 5 з яких лише передають дані для expert views, не виконуючи жодних фактичних обчислень. Warp Decode стискає весь обчислювальний рівень MoE до 2 CUDA-ядрів, усуваючи проміжні кроки на кшталт padding (додавання заповнювача), scattering (розсіювання) і merging (злиття), зменшуючи читання/запис понад 32KB проміжного буфера на кожен токен. Перевірений на GPU NVIDIA B200 з моделлю у стилі Qwen-3, Warp Decode досяг поліпшення наскрізної пропускної здатності декодування у 1.84 раза, а оскільки обчислення повністю виконуються в точності BF16/FP32, він уникнув втрат від проміжного квантування, що дало точність виходу, яка у 1.4 раза ближча до еталону FP32 порівняно з традиційними шляхами. З погляду використання апаратної смуги пропускання: за розміру партії 32 він підтримував пропускну здатність 3.95 TB/s, що приблизно становить 58% від пікової смуги пропускання B200 (6.8 TB/s). Це оптимізування безпосередньо прискорює темп ітерацій розробки та випуску версій власної програмної моделі Cursor, Composer.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено