De acordo com a monitorização do Beating, a doutoranda de Princeton Zhang Yifan revelou detalhes-chave do DeepSeek V4 no X: total de parâmetros 1,6T, V4-Lite 285B; atenção DSA2, fusão de DSA/NSA, 512 cabeças de dimensão, suporte a MQA esparso e janelas deslizantes; especialista MoE384, ativando 6, usando Fused MoE Mega-Kernel, conexões hiperconectadas com residuais. O treino utilizou o otimizador Muon, contexto de 32K, fase de RL GRPO+KL, expandido finalmente para 1M, modalidade de texto puro. Zhang não está na DeepSeek, sem resposta oficial.

BlockBeatNews

2026-04-22 14:06:01

Geração de resumo em curso

De acordo com o monitoramento Beating, o estudante de doutoramento da Princeton Yifan Zhang atualizou os detalhes técnicos do DeepSeek V4 no X. Ele anunciou em 19 de abril que o “V4 na próxima semana” e listou três nomes de componentes de arquitetura, e nesta noite forneceu a tabela completa de parâmetros, além de divulgar pela primeira vez uma versão leve V4-Lite com 285 bilhões de parâmetros.

O total do V4 é de 1,6 trilhão. O mecanismo de atenção é DSA2, que combina as duas abordagens de atenção esparsa usadas anteriormente no DeepSeek V3.2, o DSA (DeepSeek Sparse Attention) e o NSA (Native Sparse Attention) proposto na publicação deste início de ano, com head-dim de 512, em conjunto com Sparse MQA e SWA (atenção de janela deslizante). A camada MoE possui 384 especialistas, ativando 6 a cada vez, usando o Fused MoE Mega-Kernel. As conexões residuais continuam com Hyper-Connections.

Os detalhes divulgados pela primeira vez na fase de treinamento incluem: otimizador Muon (um otimizador matricial que aplica a ortogonalização de Newton-Schulz na atualização de momentum), comprimento de contexto de pré-treinamento de 32 mil, fase de reforço de aprendizagem com GRPO e inclusão de correção de divergência KL. O comprimento de contexto final foi expandido para 1 milhão. A modalidade é texto puro.

Zhang não ocupa cargo na DeepSeek, e a equipe oficial da DeepSeek não respondeu às informações acima.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
Gate13thAnniversaryLive
1.03M Popularidade
#
WCTCTradingChallengeShare8MUSDT
781.67K Popularidade
#
BitcoinBouncesBack
201.55K Popularidade
#
IsraelStrikesIranBTCPlunges
30.62K Popularidade
#
USIranTalksProgress
786.57K Popularidade

Fixar

Yifan Zhang revela as especificações técnicas completas do DeepSeek V4: 1,6T de parâmetros, 384 ativação de especialistas em 6

Tópicos em destaque

Gate13thAnniversaryLive

WCTCTradingChallengeShare8MUSDT

BitcoinBouncesBack

IsraelStrikesIranBTCPlunges

USIranTalksProgress

Fixar