Cursor опублікував технологію оптимізації виведення MoE Warp Decode, яка збільшує пропускну здатність на GPU Blackwell у 1.84 рази

BlockBeatNews · 2026-04-07T01:21:09+00:00

Cursor опублікував нову технічну статтю, в якій описується його метод прискорення виведення MoE Warp Decode. Цей метод оптимізує генерацію малих пакетів токенів на GPU NVIDIA Blackwell, зменшує читання та запис проміжних буферів, підвищує пропускну здатність та точність виведення, безпосередньо прискорюючи процес розробки його програмної моделі.

BlockBeatNews

2026-04-07 01:21:09

Генерація анотацій у процесі

За моніторингом 1M AI News, інструмент для програмування на базі ШІ Cursor опублікував технічний блог, у якому представив власний спосіб прискорення інференсу для MoE (моделі з багатьма експертами) під назвою Warp Decode. Цей підхід орієнтований на сценарії генерації малими батчами токенів на GPU Nvidia Blackwell і перевертає традиційну паралельну стратегію, що базується на експертах, на підхід, орієнтований на вивід: кожен warp (мінімальна одиниця планування, що складається з 32 паралельних обчислювальних одиниць) у GPU відповідає лише за обчислення одного значення виводу, незалежно ітеративно проходить усі експерти, до яких виконано роутинг, і виконує накопичення у регістрах, без будь-якої синхронізації між warp та без проміжних буферів.

Традиційний MoE-інференсний конвеєр має 8 стадій: з них 5 лише для транспортування даних до експертного подання (views), без виконання реальних обчислень. Warp Decode стискає весь шар MoE-обчислень до 2 CUDA kernel, прибираючи проміжні кроки на кшталт заповнення (padding), розсіювання (scatter), злиття (gather) тощо; для кожного токена зменшується обсяг читання/запису проміжних буферів більш ніж на 32KB.

У реальних тестах на GPU Nvidia B200 з моделлю у стилі Qwen-3 Warp Decode забезпечив підвищення наскрізного (end-to-end) декодингового пропуску на 1.84 раза, а також — через виконання обчислень у повному циклі з точністю BF16/FP32 та уникнення втрат точності під час проміжного квантування — якість виводу є близькою до еталона FP32 у 1.4 раза. Щодо використання апаратної пропускної здатності: при розмірі батча 32 стабільний наскрізний пропуск досягає 3.95 TB/s, що становить приблизно 58% від пікової пропускної здатності B200 (6.8 TB/s). Це оптимізування безпосередньо прискорило розробку власної програмної моделі Composer від Cursor, а також темп ітерацій та релізів версій.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

2 лайків