16 квітня DeepGEMM випустив найбільше оновлення в історії, розширивши його до повного набору операторів для обчислень великих моделей, підтримуючи матричні операції FP8/FP4/BF16 та спеціальні оператори для MoE, уваги тощо. Основою є Mega MoE, який об’єднує п’ять кроків обчислень у один ядро, використовуючи NVLink та Tensor Core для паралелізму, значно знижуючи час очікування та перенесення даних; наразі підтримуються лише FP8×FP4, потрібна PyTorch 2.9+; дані про продуктивність будуть опубліковані пізніше. Оновлення також вводить матричне множення FP8×FP4, оцінку уваги FP4, оптимізації PDL та швидший JIT, а також адаптацію до розташування даних DeepEPv2 MoE.

MeNews

2026-05-14 18:50:03

Генерація анотацій у процесі

ME News Новини, 16 квітня (UTC+8), згідно з моніторингом Датчі Beating, DeepSeek сьогодні випустила найбільше оновлення з моменту відкритого вихідного коду DeepGEMM. Цей бібліотечний GPU оператор, випущений під час «Тижня відкритого коду» у лютому минулого року, спочатку підтримував лише матричні множення FP8, тепер він розширений до повного набору операторів для ключових етапів обчислень великих моделей, підтримуючи матричні операції з точністю FP8, FP4, BF16, а також спеціальні оператори для MoE та оцінки уваги.
Основною новинкою є Mega MoE. Архітектура MoE (змішних експертів) є основою моделей, таких як DeepSeek V3, і при обчисленнях потрібно послідовно виконати п’ять кроків: розподіл EP, перший лінійний перетворювач, активація SwiGLU, другий лінійний перетворювач, злиття EP. Традиційно ці п’ять кроків виконуються окремими ядрами по черзі, кожен раз очікуючи завершення попереднього, а дані переміщуються у відеопам’ять. Mega MoE об’єднує ці п’ять кроків у одне ядро, дозволяючи одночасно виконувати комунікацію NVLink і обчислення Tensor Core, що зменшує час очікування та переміщення даних. Зараз підтримується лише комбінація точностей FP8×FP4, потрібна версія PyTorch 2.9 або вище, команда повідомила, що оптимізація ще триває, а дані про продуктивність будуть опубліковані пізніше.
Інші нововведення включають: матричне множення з гібридною точністю FP8×FP4, підтримку більшого MTP для оператора оцінки уваги FP4 (Indexer), PDL (програмоване ініціювання залежностей — оптимізація планування GPU для зменшення затримки запуску ядра), швидший JIT-компілятор, а також кілька оптимізацій для матричних обчислень MoE. Це оновлення також адаптоване до розподілу даних MoE у DeepEPv2. У поясненні PR особливо зазначено: «Це оновлення стосується лише розробки DeepGEMM і не пов’язане з внутрішнім випуском моделей.»
(Джерело: BlockBeats)

DEEPSEEK-1,94%

MEGA1,59%

KERNEL0,94%

ME2,67%

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
GateSquareMayTradingShare
1.67M Популярність
#
IsraelStrikesIranBTCPlunges
46.68K Популярність
#
#DailyPolymarketHotspot
933.34K Популярність
#
JaneStreetReducesBitcoinETFHoldings
105.31K Популярність
#
TrumpVisitsChina
63.39K Популярність

Закріплено

карта сайту

DeepSeek відкритий бібліотечний GPU-оператор DeepGEMM великого оновлення версії, додано Mega MoE, що об’єднує п’ять кроків обчислень MoE у один ядро

Популярні теми

GateSquareMayTradingShare

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

JaneStreetReducesBitcoinETFHoldings

TrumpVisitsChina

Закріплено