De acordo com o monitoramento da Dongcha Beating, o estudante de doutoramento de Princeton Yifan Zhang atualizou os detalhes técnicos do DeepSeek V4 no X. Ele pré-visualizou ‘V4 na próxima semana’ em 19 de abril e listou três nomes de componentes de arquitetura, fornecendo uma tabela completa de parâmetros esta noite, além de divulgar pela primeira vez a existência de uma versão leve, V4-Lite, com 285 bilhões de parâmetros. O total de parâmetros do V4 é de 1,6 trilhão. O mecanismo de atenção é DSA2, que combina dois esquemas de atenção esparsa: DSA (DeepSeek Sparse Attention) usado no V3.2 e NSA (Native Sparse Attention) proposto em um artigo no início deste ano. A dimensão da cabeça é 512, combinada com Sparse MQA e SWA (Sliding Window Attention). A camada MoE possui um total de 384 especialistas, com 6 ativados ao mesmo tempo, usando Fused MoE Mega-Kernel. As conexões residuais seguem Hyper-Connections. Detalhes divulgados para a fase de treinamento incluem: o otimizador utilizado é Muon (um otimizador de nível de matriz que aplica a ortogonalização de Newton-Schulz às atualizações de momento), com um comprimento de contexto de pré-treinamento de 32K, e a fase de aprendizagem por reforço usando GRPO com correção de divergência KL adicionada. O comprimento de contexto final é estendido para 1 milhão. A modalidade é texto puro. Zhang não ocupa uma posição na DeepSeek, e a DeepSeek não respondeu às informações acima.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
Gate13thAnniversaryLive
1.16M Popularidade
#
WCTCTradingChallengeShare8MUSDT
781.94K Popularidade
#
BitcoinBouncesBack
201.77K Popularidade
#
IsraelStrikesIranBTCPlunges
30.62K Popularidade
#
USIranTalksProgress
786.74K Popularidade

Fixar

Yifan Zhang revela as especificações técnicas completas do DeepSeek V4: 1,6T parâmetros, 384 especialistas com 6 ativados

Tópicos em destaque

Gate13thAnniversaryLive

WCTCTradingChallengeShare8MUSDT

BitcoinBouncesBack

IsraelStrikesIranBTCPlunges

USIranTalksProgress

Fixar