ME News, 24 de abril (UTC+8), segundo monitoramento da 动察 Beating, DeepSeek lançou como open-source a pré-visualização da série V4, licença MIT, os pesos já estão disponíveis no Hugging Face e ModelScope.
A série inclui dois modelos MoE: V4-Pro com parâmetros totais de 1.6T, ativa 49B (49 mil milhões) por token; V4-Flash com parâmetros totais de 284B (284 mil milhões), ativa 13B (13 mil milhões) por token.
Ambos suportam contexto de 1M tokens.
Três atualizações na arquitetura: mecanismo de atenção híbrida (atenção esparsa comprimida CSA + atenção fortemente comprimida HCA) reduz significativamente a sobrecarga de contexto longo, com 1M de contexto, o FLOPs de inferência de um único token do V4-Pro é apenas 27% do V3.2, e a cache KV (ocupação de memória para armazenar informação histórica durante inferência) é apenas 10% do V3.2; hiperconexão com restrição de variedade mHC substitui a conexão residual tradicional, melhorando a estabilidade de propagação de sinal entre camadas; o treino mudou para o otimizador Muon para acelerar a convergência.
Dados de pré-treino superiores a 32T tokens.
O pós-treino é dividido em duas fases: primeiro, treinar especialistas de cada domínio separadamente com SFT e aprendizagem por reforço GRPO, depois unificar e fundir num único modelo através de destilação online.
V4-Pro-Max (modo de máxima intensidade de inferência) afirma ser o modelo open-source mais forte atualmente, com benchmarks de codificação de topo, e as lacunas em tarefas de inferência e agente em relação aos modelos fechados de ponta foram significativamente reduzidas.
V4-Flash-Max, após receber orçamento de pensamento suficiente, tem desempenho de inferência próximo ao Pro, mas em tarefas de conhecimento puro e agente complexo é limitado pela escala de parâmetros.
Os pesos são armazenados com precisão mista FP4+FP8.
(Fonte: BlockBeats)

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
GateCompletesDividendDistribution
539,89K Popularidade
#
CirclePlunges17%
4,16M Popularidade
#
IsraelStrikesIranBTCPlunges
67,53K Popularidade
#
PredictWorldCupShare20000U
167,65K Popularidade
#
GateCardPointsSystemLaunched
121,09K Popularidade

Fixado

O modelo open source mais forte, deepseek v4, finalmente chegou! Modelo com 1.6 triliões de parâmetros, licença MIT, memória de texto longo comprimida para um décimo do V3.2.

Tópicos em destaque

GateCompletesDividendDistribution

CirclePlunges17%

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

GateCardPointsSystemLaunched

Fixado