📰 【O modelo de código aberto mais poderoso DeepSeek v4 finalmente chegou! Modelo de 16 trilhões de parâmetros, licença MIT, memória de texto longo comprimida para um décimo do V3.2】


De acordo com a monitorização do Beating, a versão de pré-visualização da série DeepSeek de código aberto V4, com licença MIT, os pesos já estão disponíveis no Hugging Face e no ModelScope. Esta série inclui dois modelos MoE: V4-Pro com um total de 1,6T de parâmetros, ativação de 49B por token (49 bilhões); V4-Flash com um total de 284B (2840 bilhões), ativação de 13B (13 bilhões). Ambos suportam um contexto de 1 milhão de tokens. A arquitetura tem três melhorias: mecanismo de atenção híbrido (atenção esparsa comprimida CSA + atenção comprimida pesada HCA) que reduz significativamente o custo de contexto longo, com V4 em um contexto de 1M...
Irmãos, o DeepSeek voltou a agitar as coisas! Modelo V4 com 16 trilhões de parâmetros, licença MIT, código aberto, memória de texto longo comprimida para um décimo do V3.2. Isso é que é uma revolução tecnológica de verdade, não aqueles projetos de moedas de ar que só fazem barulho.
$FET $AGIX Essas moedas de conceito de IA, desta vez conseguem aproveitar o momento para decolar? Os fãs de longa data sabem, o irmão Suo odeia aqueles que só fazem promessas vazias, mas quando há uma verdadeira inovação técnica, é preciso entrar de forma decisiva. Não espere as instituições puxarem o mercado, você ainda está aí parado, sonhando acordado. 👇👇👇👇👇
FET0,86%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar