DeepSeek biblioteca de operadores GPU de código aberto DeepGEMM atualização de grande versão, adiciona Mega MoE que funde os cinco passos de cálculo MoE em um único kernel

robot
Geração de resumo em curso

Notícias ME, 16 de abril (UTC+8), de acordo com a monitorização do Beating da Dongcha, a DeepSeek lançou hoje a maior atualização desde o lançamento do DeepGEMM de código aberto. Este é o conjunto de operadores GPU lançado durante a “Semana de Código Aberto” em fevereiro do ano passado, que originalmente suportava apenas multiplicação de matrizes FP8, agora expandido para cobrir um conjunto completo de operadores essenciais para a inferência de grandes modelos, suportando operações de matriz de múltiplas precisões FP8, FP4, BF16, bem como operadores especializados como MoE e pontuação de atenção. A principal novidade é o Mega MoE. A arquitetura MoE (especialistas híbridos) é a base de modelos como o DeepSeek V3, onde a inferência requer a execução sequencial de cinco etapas: distribuição EP, transformação linear da primeira camada, ativação SwiGLU, transformação linear da segunda camada, e fusão EP. A abordagem tradicional envolve cinco kernels independentes chamados sequencialmente, cada um aguardando a conclusão do anterior, com dados transferidos entre a memória de vídeo. O Mega MoE combina essas cinco etapas em um único kernel, permitindo que a comunicação NVLink e o cálculo com Tensor Core ocorram simultaneamente, eliminando esperas intermediárias e transferências de dados. Atualmente, suporta apenas combinações de precisão FP8×FP4, requerendo PyTorch 2.9 ou superior. A equipe afirma que ainda está otimizando, e os dados de desempenho serão divulgados posteriormente. Outras novidades incluem: multiplicação de matrizes de precisão mista FP8×FP4, suporte a operadores de pontuação de atenção FP4 para MTP maior (Indexer), PDL (início de dependência programada, uma otimização de agendamento GPU que reduz a latência de inicialização de kernels), velocidade de compilação JIT mais rápida, além de várias otimizações para operações de matriz MoE. Esta atualização também adaptou a disposição de dados MoE do DeepEPv2. A nota na descrição do PR destaca especialmente: “Esta publicação está relacionada apenas ao desenvolvimento do DeepGEMM e não está relacionada ao lançamento de modelos internos.” (Fonte: BlockBeats)

DEEPSEEK-4,88%
MEGA2,17%
KERNEL1,12%
ME1,26%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado