📰 【DeepSeek V4 lançado: 1,6T de parâmetros, flagship com suporte a 1M de contexto, poder de inferência apenas 27% do V3.2】


De acordo com a monitorização do Beating, a pré-visualização da série DeepSeek V4 de código aberto, licenciada sob MIT, já está disponível no Hugging Face e no ModelScope.
Esta série inclui dois modelos MoE: V4-Pro com um total de 1,6T de parâmetros, ativando 49B por token (490 milhões); V4-Flash com um total de 284B (2840 milhões), ativando 13B (130 milhões).
Ambos suportam 1M de tokens de contexto.
A arquitetura foi atualizada em três pontos: mecanismo de atenção híbrido (atenção esparsa comprimida CSA + atenção comprimida pesada HCA) que reduz significativamente o custo de contexto longo, com V4...
Que droga! Este DeepSeek V4 vai cortar os custos de computação dos tubarões de uma forma brutal!
1,6T de parâmetros ativando apenas 49B, com poder de inferência chegando a 27% do V3.2, isso não é uma abertura de porta para nós, os cães de rua, com um cheat de poder de computação?
O caminho do AI vai ser lavado de cabeça até os próprios pais não reconhecerem mais!
Família, fiquem atentos aos pesos no Hugging Face, quando essa onda de dividendos tecnológicos se concretizar, aqueles projetos que dependem de acumular poder de computação para cortar os lucros vão ser esmagados!
Caramba, se não avançarmos agora, vamos ficar esperando os tubarões nos pegarem de calças arriadas?👇👇👇👇👇
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar