16 апреля DeepGEMM выпустил крупнейшее обновление в истории, расширив его до полного набора операторов для инференса больших моделей, поддерживающего матричные операции FP8/FP4/BF16, а также специализированные операторы для MoE, внимания и других. Основой является Mega MoE, объединяющий пять шагов инференса в один ядро, использующее NVLink и Tensor Core для параллелизма, что значительно снижает ожидание и перенос данных; в настоящее время поддерживаются только FP8×FP4, требуется PyTorch 2.9+; показатели производительности будут опубликованы позже. Обновление также включает матричное умножение FP8×FP4, оценку внимания FP4, оптимизации PDL и более быстрый JIT, а также адаптацию к структуре данных DeepEPv2 MoE.

MeNews

2026-05-14 18:50:03

Генерация тезисов в процессе

ME News Новости, 16 апреля (UTC+8), согласно мониторингу 动察 Beating, DeepSeek сегодня выпустила самое крупное обновление с момента открытия исходного кода DeepGEMM. Эта библиотека GPU-операторов, выпущенная во время «Недели открытого исходного кода» в феврале прошлого года, изначально предназначалась только для матричных умножений FP8, а теперь расширена до полного набора операторов, охватывающих ключевые этапы вывода больших моделей, поддерживая матричные операции с различной точностью FP8, FP4, BF16, а также специализированные операторы для MoE и оценки внимания.
Ключевым нововведением является Mega MoE. Архитектура MoE (гибридных экспертов) — основа моделей, таких как DeepSeek V3, при выводе требующая последовательного выполнения пяти шагов: распределение EP, линейное преобразование первого слоя, активация SwiGLU, линейное преобразование второго слоя, объединение EP. Традиционно эти пять шагов реализуются отдельными ядрами, вызываемыми по очереди, что требует ожидания завершения каждого шага и перемещения данных в видеопамяти. Mega MoE объединяет эти пять шагов в одно ядро, позволяя одновременно выполнять коммуникацию NVLink и вычисления Tensor Core, устраняя промежуточные ожидания и перенос данных. В настоящее время поддерживается только комбинация точностей FP8×FP4, требуется PyTorch версии 2.9 и выше. Команда отмечает, что оптимизация продолжается, и данные о производительности будут опубликованы позже.
Другие нововведения включают: матричные умножения с гибридной точностью FP8×FP4, поддержку более крупных MTP для оператора оценки внимания FP4 (Indexer), PDL (программируемая зависимость запуска — оптимизация планирования GPU, уменьшающая задержки при запуске ядра), более быструю скорость JIT-компиляции, а также множество оптимизаций для матричных операций MoE. Это обновление также адаптировано к структуре данных MoE в DeepEPv2. В описании PR специально указано: «Данное обновление связано только с разработкой DeepGEMM и не имеет отношения к внутренним моделям.»
(Источник: BlockBeats)

DEEPSEEK-1,91%

MEGA2,99%

KERNEL2,92%

ME3,41%

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
GateSquareMayTradingShare
1.67M Популярность
#
IsraelStrikesIranBTCPlunges
46.68K Популярность
#
#DailyPolymarketHotspot
937.17K Популярность
#
JaneStreetReducesBitcoinETFHoldings
105.29K Популярность
#
TrumpVisitsChina
63.39K Популярность

Закреплено

Карта сайта

DeepSeek открытая библиотека GPU-операторов DeepGEMM крупное обновление версии, добавлен Mega MoE, объединяющий пятишаговые вычисления MoE в один kernel

Популярные темы

GateSquareMayTradingShare

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

JaneStreetReducesBitcoinETFHoldings

TrumpVisitsChina

Закреплено