O modelo open source mais poderoso, DeepSeek V4, finalmente chegou! Modelo de 1,6 trilhão de parâmetros, licença MIT, memória de vídeo para textos longos comprimida para um décimo da V3.2.

ME News消息,4月24日(UTC+8),据动察Beating监测,DeepSeek开源V4系列预览版,MIT许可,权重已上线Hugging Face和ModelScope。系列含两款MoE模型:V4-Pro总参数1.6T、每token激活49B(490亿);V4-Flash总参数284B(2840亿)、激活13B(130亿)。两款均支持1M token上下文。架构三项升级:混合注意力机制(压缩稀疏注意力CSA + 重度压缩注意力HCA)大幅降低长上下文开销,1M上下文下V4-Pro单token推理FLOPs仅为V3.2的27%,KV缓存(推理时存储历史信息的显存占用)仅为V3.2的10%;流形约束超连接mHC替代传统残差连接,增强跨层信号传播稳定性;训练改用Muon优化器加速收敛。预训练数据超32T token。后训练分两阶段:先用SFT和GRPO强化学习分别训练各领域专家,再用在线蒸馏统一合并成一个模型。V4-Pro-Max(最高推理力度模式)自称当前最强开源模型,编码基准达到顶级,推理和agent任务与闭源前沿差距显著缩小。V4-Flash-Max在给足思考预算后推理表现接近Pro,但纯知识和复杂agent任务上受限于参数规模。权重以FP4+FP8混合精度存储。(来源:BlockBeats)---Tradução:

ME News informa que, em 24 de abril (UTC+8), de acordo com o monitoramento do Dongcha Beating, a DeepSeek lançou a versão prévia da série V4 de código aberto, licença MIT, com pesos já disponíveis no Hugging Face e ModelScope. A série inclui dois modelos MoE: V4-Pro com parâmetros totais de 1,6T e ativação de 49B (49 bilhões) por token; V4-Flash com parâmetros totais de 284B (284 bilhões) e ativação de 13B (1,3 bilhão). Ambos suportam contexto de 1M tokens. Três atualizações na arquitetura: Mecanismo de atenção híbrida (Atenção Esparsa Comprimida CSA + Atenção de Alta Compressão HCA) reduz drasticamente a sobrecarga de contexto longo; sob contexto de 1M, os FLOPs de inferência de um único token do V4-Pro são apenas 27% dos do V3.2, e o cache KV (ocupação de memória para armazenar informações históricas durante a inferência) é apenas 10% do V3.2; A hiperconexão com restrição de manifold (mHC) substitui as conexões residuais tradicionais, aumentando a estabilidade da propagação de sinal entre camadas; O treinamento mudou para o otimizador Muon para acelerar a convergência. Dados de pré-treinamento com mais de 32T tokens. O pós-treinamento é dividido em duas fases: primeiro, treina especialistas em cada domínio usando SFT e aprendizado por reforço GRPO separadamente, depois usa destilação online para unificar e mesclar em um único modelo. O V4-Pro-Max (modo de força de inferência máxima) afirma ser o modelo de código aberto mais forte atualmente, atingindo o topo nos benchmarks de codificação, e a diferença em tarefas de raciocínio e agente em relação aos modelos fechados de ponta foi significativamente reduzida. O V4-Flash-Max, com orçamento de pensamento suficiente, tem desempenho de raciocínio próximo ao Pro, mas em conhecimento puro e tarefas complexas de agente, é limitado pelo tamanho dos parâmetros. Os pesos são armazenados em precisão mista FP4+FP8. (Fonte: BlockBeats)

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado