16 de abril, a DeepGEMM lançou a maior atualização de sempre, expandindo para cobrir uma biblioteca completa de operadores para inferência de grandes modelos, suportando operações de matriz em FP8/FP4/BF16 e operadores especializados como MoE e atenção. O núcleo é o Mega MoE, que combina os cinco passos de inferência num único kernel, utilizando NVLink e Tensor Core em paralelo, reduzindo significativamente o tempo de espera e a transferência de dados; Atualmente suporta apenas FP8×FP4, requer PyTorch 2.9+ e os dados de desempenho serão divulgados posteriormente. A atualização também introduz multiplicação de matrizes FP8×FP4, pontuação de atenção FP4, otimizações PDL e JIT mais rápido, além de adaptar-se ao layout de dados MoE do DeepEPv2.

MeNews

2026-05-14 18:50:03

Geração de resumo em curso

Notícias ME, 16 de abril (UTC+8), de acordo com a monitorização do Beating da Dongcha, a DeepSeek lançou hoje a maior atualização desde o lançamento do DeepGEMM de código aberto. Este é o conjunto de operadores GPU lançado durante a “Semana de Código Aberto” em fevereiro do ano passado, que originalmente suportava apenas multiplicação de matrizes FP8, agora expandido para cobrir um conjunto completo de operadores essenciais para a inferência de grandes modelos, suportando operações de matriz de múltiplas precisões FP8, FP4, BF16, bem como operadores especializados como MoE e pontuação de atenção. A principal novidade é o Mega MoE. A arquitetura MoE (especialistas híbridos) é a base de modelos como o DeepSeek V3, onde a inferência requer a execução sequencial de cinco etapas: distribuição EP, transformação linear da primeira camada, ativação SwiGLU, transformação linear da segunda camada, e fusão EP. A abordagem tradicional envolve cinco kernels independentes chamados sequencialmente, cada um aguardando a conclusão do anterior, com dados transferidos entre a memória de vídeo. O Mega MoE combina essas cinco etapas em um único kernel, permitindo que a comunicação NVLink e o cálculo com Tensor Core ocorram simultaneamente, eliminando esperas intermediárias e transferências de dados. Atualmente, suporta apenas combinações de precisão FP8×FP4, requerendo PyTorch 2.9 ou superior. A equipe afirma que ainda está otimizando, e os dados de desempenho serão divulgados posteriormente. Outras novidades incluem: multiplicação de matrizes de precisão mista FP8×FP4, suporte a operadores de pontuação de atenção FP4 para MTP maior (Indexer), PDL (início de dependência programada, uma otimização de agendamento GPU que reduz a latência de inicialização de kernels), velocidade de compilação JIT mais rápida, além de várias otimizações para operações de matriz MoE. Esta atualização também adaptou a disposição de dados MoE do DeepEPv2. A nota na descrição do PR destaca especialmente: “Esta publicação está relacionada apenas ao desenvolvimento do DeepGEMM e não está relacionada ao lançamento de modelos internos.” (Fonte: BlockBeats)

DEEPSEEK-4,88%

MEGA2,17%

KERNEL1,12%

ME1,26%

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
GateSquareMayTradingShare
1.68M Popularidade
#
IsraelStrikesIranBTCPlunges
46.7K Popularidade
#
#DailyPolymarketHotspot
937.71K Popularidade
#
JaneStreetReducesBitcoinETFHoldings
105.72K Popularidade
#
TrumpVisitsChina
63.6K Popularidade

Fixado

DeepSeek biblioteca de operadores GPU de código aberto DeepGEMM atualização de grande versão, adiciona Mega MoE que funde os cinco passos de cálculo MoE em um único kernel

Tópicos em destaque

GateSquareMayTradingShare

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

JaneStreetReducesBitcoinETFHoldings

TrumpVisitsChina

Fixado