DeepSeek V4 lançamento: carro-chefe com 1.6T parâmetros suporta contexto de 1M, poder de inferência é apenas 27% do V3.2

Notícias ME News, 24 de abril (UTC+8), de acordo com o monitoramento da Beating (动察), DeepSeek lançou a versão prévia da série V4 como open source, licença MIT, os pesos já estão disponíveis no Hugging Face e ModelScope.
A série contém dois modelos MoE: V4-Pro com 1,6T parâmetros totais, 49B (49 bilhões) ativados por token; V4-Flash com 284B (284 bilhões) parâmetros totais, 13B (13 bilhões) ativados.
Ambos suportam contexto de 1M tokens.
Três atualizações na arquitetura: mecanismo de atenção híbrida (Atenção Esparsa Comprimida CSA + Atenção Altamente Comprimida HCA) reduz significativamente o custo de contexto longo, sob contexto de 1M, os FLOPs de inferência de um único token do V4-Pro são apenas 27% do V3.2, e o cache KV (uso de memória para armazenar informações históricas durante a inferência) é apenas 10% do V3.2; a superconexão com restrição de manifold mHC substitui as conexões residuais tradicionais, melhorando a estabilidade da propagação de sinal entre camadas; o treinamento mudou para o otimizador Muon para acelerar a convergência.
Dados de pré-treinamento ultrapassam 32T tokens.
O pós-treinamento é dividido em duas fases: primeiro, utiliza-se SFT e aprendizado por reforço GRPO para treinar especialistas em cada domínio separadamente; depois, usa-se destilação online para unificar e combinar em um único modelo.
V4-Pro-Max (modo de máxima intensidade de inferência) afirma ser o modelo open source mais forte atualmente, com benchmarks de codificação no topo, e a diferença em tarefas de raciocínio e agente em relação à fronteira de código fechado foi significativamente reduzida.
V4-Flash-Max, com orçamento de raciocínio suficiente, tem desempenho de inferência próximo ao Pro, mas em tarefas de conhecimento puro e agente complexo, é limitado pelo tamanho dos parâmetros.
Os pesos são armazenados em precisão mista FP4+FP8.
(Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado