Yifan Zhang revela as especificações técnicas completas do DeepSeek V4: 1,6T de parâmetros, 384 ativação de especialistas em 6

robot
Geração do resumo em andamento
Notícias ME, 22 de abril (UTC+8), de acordo com o monitoramento do Beating, o doutorando de Princeton Yifan Zhang atualizou detalhes técnicos do DeepSeek V4 na X. Ele anunciou em 19 de abril que "V4 na próxima semana" e listou três nomes de componentes arquitetônicos, e nesta noite forneceu a tabela completa de parâmetros, além de divulgar pela primeira vez uma versão leve V4-Lite com 285 bilhões de parâmetros. O total do V4 é de 1,6 trilhão. O mecanismo de atenção é DSA2, combinando DSA (Atenção Esparsa Profunda) usado anteriormente no V3.2 e NSA (Atenção Esparsa Nativa) proposto na pesquisa deste início de ano, duas abordagens de atenção esparsa, com head-dim de 512, em conjunto com Sparse MQA e SWA (atenção por janela deslizante). A camada MoE possui 384 especialistas, ativando 6 a cada vez, usando o Mega-Kernel MoE Fused. As conexões residuais continuam com Hyper-Connections. Detalhes divulgados pela primeira vez na fase de treinamento incluem: otimizador Muon (um otimizador matricial que aplica ortogonalização de Newton-Schulz na atualização de momentum), comprimento de contexto de pré-treinamento de 32K, fase de aprendizado por reforço usando GRPO com adição de correção de divergência KL. O comprimento de contexto final foi expandido para 1 milhão. Modalidade de texto puro. Zhang não ocupa cargo na DeepSeek, e a equipe oficial do DeepSeek não respondeu às informações acima. (Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado