Análise: O conteúdo de código aberto do TileKernels corresponde em vários aspectos às especificações da arquitetura V4 divulgadas anteriormente por Yifan Zhang

robot
Geração de resumo em curso

De acordo com o monitoramento Beating, a biblioteca de núcleo TileKernels de código aberto da DeepSeek possui várias correspondências com as especificações da arquitetura V4 divulgadas anteriormente por Yifan Zhang.

Zhang afirma que a conexão residual do V4 usa Hyper-Connections. O TileKernels de código aberto é o núcleo mHC (Hyper-Connections Constrained Manifold), que é uma versão aprimorada do HC com restrição de matrizes aleatórias duplas proposta pela equipe Seed da DeepSeek em 2024, resolvendo o problema de divergência de sinal do HC original durante o treinamento em larga escala. O mHC é uma forma de Hyper-Connections; o HC original não suporta treinamento estável em grande escala, e o V4 provavelmente usa o mHC. Zhang afirma que o V4 utiliza o Mega-Kernel MoE Fused para gerenciar uma camada MoE com 384 especialistas ativando 6, e o módulo MoE do TileKernels inclui seleção dos top-k especialistas, mapeamento de tokens para especialistas e distribuição e coleta de especialistas fusionados.

O TileKernels também inclui o núcleo Engram, que é um módulo de memória condicional proposto no artigo da DeepSeek de janeiro deste ano, mas não foi mencionado nas especificações do V4 de Zhang. A biblioteca suporta SM90 (Hopper) e SM100 (Blackwell), sem suporte para Huawei Ascend. A reportagem do 《The Information》 anteriormente informou que o V4 foi treinado em Blackwell, e a DeepSeek gastou vários meses adaptando o modelo para chips Huawei e Cambrian.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar