DeepSeek anuncia a pré-visualização da série V4, licença MIT, pesos disponíveis no HuggingFace e ModelScope. V4-Pro1.6T, V4-Flash284B, ambos suportam cerca de 1M de contexto, com ativações de 49B e 13B, respetivamente. Atualizado para atenção híbrida CSA+HCA, hiperconexão mHC, otimização Muon, com dados de treino superiores a 32T. Pós-treino em duas fases: SFT/GRPO para desenvolver especialistas no domínio, seguido de destilação online combinada. Pro-Max é o mais forte de código aberto, com inferência próxima do estado da arte; Flash-Max, com orçamento de reflexão suficiente, também se aproxima do Pro, mas com escala limitada. Os pesos usam precisão mista FP4+FP8.

BlockBeatNews

2026-04-24 03:22:40

Geração de resumo em curso

De acordo com o monitoramento Beating, prévia da série open source DeepSeek V4, licença MIT, pesos já disponíveis no Hugging Face e ModelScope. A série inclui dois modelos MoE: V4-Pro com um total de 1,6T de parâmetros, ativação de 49B por token (490 bilhões); V4-Flash com um total de 284B (2840 bilhões), ativação de 13B (130 bilhões). Ambos suportam um contexto de aproximadamente 1 milhão de tokens.

Três melhorias na arquitetura: mecanismo de atenção híbrido (atenção esparsa comprimida CSA + atenção comprimida pesada HCA) que reduz significativamente o custo de contexto longo, com FLOPs de inferência por token de apenas 27% do V3.2 em um contexto de 1 milhão de tokens, e cache KV (armazenamento de informações históricas na memória durante inferência) de apenas 10% do V3.2; restrição de manifold com hiperconexão mHC substituindo conexões residuais tradicionais, fortalecendo a estabilidade na propagação de sinais entre camadas; treinamento usando o otimizador Muon para acelerar a convergência. Dados de pré-treinamento ultrapassam 32T de tokens.

O pós-treinamento ocorre em duas fases: primeiro, usando SFT e GRPO para treinar especialistas em diferentes áreas, depois, usando destilação online para consolidar tudo em um único modelo. V4-Pro-Max (modo de maior capacidade de inferência) afirma ser o modelo open source mais forte atualmente, com benchmarks de codificação de nível top, e uma redução significativa na lacuna de desempenho de inferência e tarefas de agentes em relação ao estado da arte fechado. V4-Flash-Max, após uma devida consideração, apresenta desempenho de inferência próximo ao Pro, mas limitado em tarefas puramente de conhecimento e agentes complexos devido à escala de parâmetros. Pesos armazenados em precisão mista FP4+FP8.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
WCTCTradingChallengeShare8MUSDT
835.28K Popularidade
#
CryptoMarketSeesVolatility
204.78K Popularidade
#
IsraelStrikesIranBTCPlunges
30.82K Popularidade
#
rsETHAttackUpdate
78.95K Popularidade
#
US-IranTalksStall
28.5K Popularidade

Fixar

O modelo de código aberto mais poderoso, deepseek v4, finalmente chegou! Modelo de 1,6 triliões de parâmetros, licença MIT, memória de texto longo comprimida para um décimo do V3.2

Tópicos em destaque

WCTCTradingChallengeShare8MUSDT

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Fixar

O modelo de código aberto mais poderoso, deepseek v4, finalmente chegou!
Modelo de 1,6 triliões de parâmetros, licença MIT, memória de texto longo comprimida para um décimo do V3.2