DeepSeek открытая библиотека GPU-операторов DeepGEMM крупное обновление версии, добавлен Mega MoE, объединяющий пятишаговые вычисления MoE в один kernel

robot
Генерация тезисов в процессе

ME News Новости, 16 апреля (UTC+8), согласно мониторингу 动察 Beating, DeepSeek сегодня выпустила самое крупное обновление с момента открытия исходного кода DeepGEMM. Эта библиотека GPU-операторов, выпущенная во время «Недели открытого исходного кода» в феврале прошлого года, изначально предназначалась только для матричных умножений FP8, а теперь расширена до полного набора операторов, охватывающих ключевые этапы вывода больших моделей, поддерживая матричные операции с различной точностью FP8, FP4, BF16, а также специализированные операторы для MoE и оценки внимания.
Ключевым нововведением является Mega MoE. Архитектура MoE (гибридных экспертов) — основа моделей, таких как DeepSeek V3, при выводе требующая последовательного выполнения пяти шагов: распределение EP, линейное преобразование первого слоя, активация SwiGLU, линейное преобразование второго слоя, объединение EP. Традиционно эти пять шагов реализуются отдельными ядрами, вызываемыми по очереди, что требует ожидания завершения каждого шага и перемещения данных в видеопамяти. Mega MoE объединяет эти пять шагов в одно ядро, позволяя одновременно выполнять коммуникацию NVLink и вычисления Tensor Core, устраняя промежуточные ожидания и перенос данных. В настоящее время поддерживается только комбинация точностей FP8×FP4, требуется PyTorch версии 2.9 и выше. Команда отмечает, что оптимизация продолжается, и данные о производительности будут опубликованы позже.
Другие нововведения включают: матричные умножения с гибридной точностью FP8×FP4, поддержку более крупных MTP для оператора оценки внимания FP4 (Indexer), PDL (программируемая зависимость запуска — оптимизация планирования GPU, уменьшающая задержки при запуске ядра), более быструю скорость JIT-компиляции, а также множество оптимизаций для матричных операций MoE. Это обновление также адаптировано к структуре данных MoE в DeepEPv2. В описании PR специально указано: «Данное обновление связано только с разработкой DeepGEMM и не имеет отношения к внутренним моделям.»
(Источник: BlockBeats)

DEEPSEEK-1,91%
MEGA2,99%
KERNEL2,92%
ME3,41%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено