DeepSeek відкритий бібліотечний GPU-оператор DeepGEMM великого оновлення версії, додано Mega MoE, що об’єднує п’ять кроків обчислень MoE у один ядро

robot
Генерація анотацій у процесі

ME News Новини, 16 квітня (UTC+8), згідно з моніторингом Датчі Beating, DeepSeek сьогодні випустила найбільше оновлення з моменту відкритого вихідного коду DeepGEMM. Цей бібліотечний GPU оператор, випущений під час «Тижня відкритого коду» у лютому минулого року, спочатку підтримував лише матричні множення FP8, тепер він розширений до повного набору операторів для ключових етапів обчислень великих моделей, підтримуючи матричні операції з точністю FP8, FP4, BF16, а також спеціальні оператори для MoE та оцінки уваги.
Основною новинкою є Mega MoE. Архітектура MoE (змішних експертів) є основою моделей, таких як DeepSeek V3, і при обчисленнях потрібно послідовно виконати п’ять кроків: розподіл EP, перший лінійний перетворювач, активація SwiGLU, другий лінійний перетворювач, злиття EP. Традиційно ці п’ять кроків виконуються окремими ядрами по черзі, кожен раз очікуючи завершення попереднього, а дані переміщуються у відеопам’ять. Mega MoE об’єднує ці п’ять кроків у одне ядро, дозволяючи одночасно виконувати комунікацію NVLink і обчислення Tensor Core, що зменшує час очікування та переміщення даних. Зараз підтримується лише комбінація точностей FP8×FP4, потрібна версія PyTorch 2.9 або вище, команда повідомила, що оптимізація ще триває, а дані про продуктивність будуть опубліковані пізніше.
Інші нововведення включають: матричне множення з гібридною точністю FP8×FP4, підтримку більшого MTP для оператора оцінки уваги FP4 (Indexer), PDL (програмоване ініціювання залежностей — оптимізація планування GPU для зменшення затримки запуску ядра), швидший JIT-компілятор, а також кілька оптимізацій для матричних обчислень MoE. Це оновлення також адаптоване до розподілу даних MoE у DeepEPv2. У поясненні PR особливо зазначено: «Це оновлення стосується лише розробки DeepGEMM і не пов’язане з внутрішнім випуском моделей.»
(Джерело: BlockBeats)

DEEPSEEK-1,94%
MEGA1,59%
KERNEL0,94%
ME2,67%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено