Análise: O conteúdo de código aberto do TileKernels corresponde às especificações da arquitetura V4 de Yifan Zhang

De acordo com o monitoramento da Dongcha Beating, a biblioteca de kernels TileKernels de código aberto pela DeepSeek corresponde de várias formas às especificações da arquitetura V4 divulgadas anteriormente por Yifan Zhang. Zhang afirmou que as conexões residuais V4 usam Hyper-Conexões. A TileKernels de código aberto apresenta mHC (Hyper-Conexões Constrangidas por Manifold), que é uma versão aprimorada da HC proposta pela equipe Byte Seed em 2024, abordando o problema de divergência de sinal encontrado durante o treinamento em larga escala com a HC original. O próprio mHC é um tipo de Hyper-Conexões, já que a HC original não suporta treinamento estável em larga escala; assim, o mHC é provavelmente o que é realmente usado na V4. Zhang mencionou que a V4 emprega o Mega-Kernel MoE Fused para gerenciar 384 ativações de especialistas em 6 camadas MoE, enquanto o módulo MoE em TileKernels inclui seleção de especialistas Top-k, mapeamento de token para especialista, e a distribuição e coleta de especialistas fundidos. TileKernels também contém o kernel Engram, que é um módulo de memória condicional proposto em um artigo da DeepSeek no início deste ano, mas o Engram não é mencionado nas especificações da V4 de Zhang. A biblioteca suporta SM90 (Hopper) e SM100 (Blackwell), mas não suporta Huawei Ascend. Anteriormente, o The Information relatou que a V4 foi treinada no Blackwell, e a DeepSeek passou meses adaptando o modelo para chips Huawei e Cambricon.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar