Huawei Chip Adia Lançamento do DeepSeek V4? Mesmo Kernel Alcança Quase o Dobro da Velocidade na NVIDIA Ascend

De acordo com o monitoramento da Dongcha Beating, antes do lançamento do DeepSeek V4, havia uma especulação generalizada na comunidade de que o lançamento tinha sido atrasado devido a dificuldades na adaptação do modelo da NVIDIA para a plataforma Huawei Ascend. Embora o relatório técnico do V4 não tenha abordado diretamente esse rumor, os dados de desempenho divulgados contradizem-no significativamente. O relatório mostra que o Esquema de Particionamento de Especialistas de Granularidade Fina (Esquema EP de Granularidade Fina) foi implantado e validado com sucesso tanto em GPUs NVIDIA quanto em NPUs Huawei Ascend, alcançando uma aceleração de 1,50 a 1,73 vezes para cargas de inferência regulares, e até 1,96 vezes de aceleração para cenários sensíveis à latência, como rollout de RL e serviços de agentes de alta velocidade. A equipe também open-soube o núcleo MegaMoE da versão CUDA como parte do DeepGEMM. Em outras palavras, o V4 demonstrou eficiência próxima aos limites teóricos em ambas as plataformas de hardware, e a adaptação entre plataformas não resultou em perda de desempenho.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar