DeepSeek V4 lançado: modelo topo de gama com 1,6T parâmetros suporta contexto de 1M, capacidade de inferência é apenas 27% da V3.2

ME News notícias, 24 de abril (UTC+8), de acordo com a monitorização do Beating, a DeepSeek lançou a pré-visualização da série V4, licença MIT, pesos já disponíveis no Hugging Face e ModelScope. A série inclui dois modelos MoE: V4-Pro com 1,6T de parâmetros totais, 49B (49 mil milhões) ativados por token; V4-Flash com 284B (284 mil milhões) de parâmetros totais, 13B (13 mil milhões) ativados. Ambos suportam contexto de 1M tokens. Três atualizações de arquitetura: mecanismo de atenção híbrida (Atenção Especializada Comprimida CSA + Atenção de Compressão Pesada HCA) reduz significativamente o custo de contexto longo, com FLOPs de inferência por token do V4-Pro sob contexto de 1M sendo apenas 27% do V3.2, e cache KV (ocupação de memória para armazenar informação histórica durante inferência) apenas 10% do V3.2; hiperconexão com restrição de variedade mHC substitui conexões residuais tradicionais, melhorando a estabilidade da propagação de sinal entre camadas; treino mudou para otimizador Muon para acelerar a convergência. Dados de pré-treino superam 32T tokens. Pós-treino em duas fases: primeiro, usa SFT e aprendizagem por reforço GRPO para treinar especialistas em cada domínio separadamente, depois funde-os num único modelo usando destilação online. O V4-Pro-Max (modo de maior esforço de inferência) afirma ser o modelo open-source mais forte atualmente, com benchmarks de codificação a atingir o topo, e a lacuna em tarefas de raciocínio e agentes face aos modelos fechados de ponta é significativamente reduzida. O V4-Flash-Max, com orçamento de pensamento suficiente, aproxima-se do Pro em desempenho de raciocínio, mas é limitado pelo tamanho de parâmetros em tarefas de conhecimento puro e agentes complexos. Os pesos são armazenados em precisão mista FP4+FP8. (Fonte: BlockBeats)
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado