O modelo de código aberto mais poderoso, deepseek v4, finalmente chegou!
Modelo de 1,6 triliões de parâmetros, licença MIT, memória de texto longo comprimida para um décimo do V3.2

robot
Geração de resumo em curso

De acordo com o monitoramento Beating, prévia da série open source DeepSeek V4, licença MIT, pesos já disponíveis no Hugging Face e ModelScope. A série inclui dois modelos MoE: V4-Pro com um total de 1,6T de parâmetros, ativação de 49B por token (490 bilhões); V4-Flash com um total de 284B (2840 bilhões), ativação de 13B (130 bilhões). Ambos suportam um contexto de aproximadamente 1 milhão de tokens.

Três melhorias na arquitetura: mecanismo de atenção híbrido (atenção esparsa comprimida CSA + atenção comprimida pesada HCA) que reduz significativamente o custo de contexto longo, com FLOPs de inferência por token de apenas 27% do V3.2 em um contexto de 1 milhão de tokens, e cache KV (armazenamento de informações históricas na memória durante inferência) de apenas 10% do V3.2; restrição de manifold com hiperconexão mHC substituindo conexões residuais tradicionais, fortalecendo a estabilidade na propagação de sinais entre camadas; treinamento usando o otimizador Muon para acelerar a convergência. Dados de pré-treinamento ultrapassam 32T de tokens.

O pós-treinamento ocorre em duas fases: primeiro, usando SFT e GRPO para treinar especialistas em diferentes áreas, depois, usando destilação online para consolidar tudo em um único modelo. V4-Pro-Max (modo de maior capacidade de inferência) afirma ser o modelo open source mais forte atualmente, com benchmarks de codificação de nível top, e uma redução significativa na lacuna de desempenho de inferência e tarefas de agentes em relação ao estado da arte fechado. V4-Flash-Max, após uma devida consideração, apresenta desempenho de inferência próximo ao Pro, mas limitado em tarefas puramente de conhecimento e agentes complexos devido à escala de parâmetros. Pesos armazenados em precisão mista FP4+FP8.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar