📰 【O modelo de código aberto mais poderoso DeepSeek V4 finalmente chegou! Modelo de 1,6 triliões de parâmetros, licença MIT, compressão de memória para textos longos reduzida a um décimo de V3.2】


De acordo com a monitorização do Beating, a versão de pré-visualização da série DeepSeek de código aberto V4, com licença MIT, os pesos já estão disponíveis no Hugging Face e no ModelScope. Esta série inclui dois modelos MoE: V4-Pro com um total de 1,6T de parâmetros, ativação de 49B por token (49 bilhões); V4-Flash com um total de 284B (2840 bilhões), ativação de 13B (13 bilhões). Ambos suportam um contexto de 1 milhão de tokens. A arquitetura foi atualizada em três aspectos: mecanismo de atenção híbrido (atenção esparsa comprimida CSA + atenção comprimida pesada HCA) que reduz significativamente o custo de contexto longo, com V4 em um contexto de 1 milhão de tokens...
Irmãos, o DeepSeek voltou a fazer grandes coisas, o modelo de código aberto V4 com 1,6 triliões de parâmetros, licença MIT, usando livremente, memória de textos longos reduzida a um décimo de V3.2. Este cara realmente tem coragem de lançar modelos grandes como se fossem batatas, investidores de IA, aproveitem a oportunidade, não percam essa onda de dividendos tecnológicos como perderam o rei das criptomoedas no passado.👇👇👇👇👇
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar