Análise: O conteúdo de código aberto do TileKernels corresponde às especificações da arquitetura V4 divulgadas por Yifan Zhang

robot
Geração de resumo em curso

Notícias do site Jièjiè, o analista Yifan Zhang revelou que as especificações da arquitetura V4 correspondem a várias partes do núcleo TileKernels de código aberto do DeepSeek.
Zhang afirmou que a conexão residual do V4 utiliza uma superconexão de restrição de variedade (MHC), uma versão aprimorada da restrição de matriz dupla aleatória proposta pela equipe Seed em 2024.
Através do código do núcleo TileKernels, inferiu-se a arquitetura V4, com três pontos principais corretos e um incorreto.
O cartão do modelo confirma que o V4 usa MHC, o que está correto.
O cartão do modelo também confirma que o V4 é um modelo MOE, o que está correto.
Os pesos usam armazenamento híbrido FP4+FP8, o que está correto.
A única previsão incorreta foi o módulo de memória condicional (Engram), que também não foi mencionado no cartão do modelo.
O cartão do modelo revelou componentes novos não abordados pelo TileKernels: o mecanismo de atenção híbrido (CSA + HCA) é o núcleo do avanço na eficiência de contexto longo do V4, com inferência de FLOPS apenas 27% do V3.2 em um contexto de 1 milhão, e o cache KV é apenas 10%, com o treinamento mudando para o otimizador Muon.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar