Huawei e Universidade de Ciência e Tecnologia unem forças para romper o monopólio da Nvidia, o especialista em aceleração de cálculo de grandes modelos Ascend A3 aumenta a velocidade em 58%

De acordo com o monitoramento Beating, na evolução de arquiteturas MoE em grande escala, o uso de chips nacionais Ascend para treinar grandes modelos tornou-se uma direção chave para construir uma capacidade de IA autônoma e controlável.
No entanto, a maioria das estruturas de grandes modelos mainstream são baseadas no ecossistema CUDA da Nvidia, e a sua migração direta para a plataforma Ascend frequentemente enfrenta desafios como agendamento desigual de filas de hardware e baixa eficiência no uso do poder de processamento.
A Universidade de Ciência e Tecnologia da China, Huawei e Universidade de Pequim lançaram conjuntamente a estrutura de compilação e agendamento HyperParallel-MoE, que ajusta a nível de tile as filas de hardware exclusivas do Ascend A3, visando superar o gargalo de eficiência energética no agendamento paralelo de capacidades heterogêneas de computação.

O Ascend A3 possui duas categorias de núcleos: AIC, responsável por multiplicação de matrizes, e AIV, que trata de cálculos vetoriais e comunicação.
Porém, sob o agendamento serial tradicional de operadores, esses dois tipos de núcleos só podem trabalhar alternadamente, ficando ociosos em turnos.
Dados de testes mostram que, ao rodar um grande modelo estilo DeepSeek de 671 bilhões de parâmetros em um cluster de 256 nós, a utilização do AIC é de apenas 67%, e 39% do atraso na comunicação de roteamento especializado é exposto na rota crítica de cálculo.

As principais mudanças na HyperParallel-MoE incluem três itens.
Primeiro, o design de uma primitive de escrita unilateral conduzida pelo AIV, que dispara o cálculo assim que a tile de dados chega, sem precisar esperar que toda a batch esteja completa.
Segundo, a introdução de geração de tarefas de tile com percepção de dependências, unificando a abstração de comunicação e operadores de cálculo.
Terceiro, o pré-gerenciamento de sequências de tarefas por um agendador estático, que conduz os dois tipos de núcleos em paralelo dentro de um único kernel, aproveitando o cache L2 de alta velocidade para compartilhar resultados intermediários, reduzindo atrasos de escrita e leitura na memória lenta HBM.

Testes mostram que, sob roteamento balanceado de 64 nós, o módulo principal responsável pelo cálculo de especialistas (MoE-FFN) reduziu seu atraso em aproximadamente 36%, o que equivale a uma melhora de até 58% na velocidade de processamento de dados (de 1,49 a 1,58 vezes mais rápido).
Na operação end-to-end do sistema, a velocidade de treinamento por passo também aumentou entre 8% e 9%.
Isso indica que a eficiência energética real do Ascend depende não apenas das especificações de hardware, mas também de se o compilador e o runtime podem agendar de forma eficiente os núcleos AIC/AIV.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 6
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
TreatEarningsAsSnacks
· 2h atrás
A barreira ecológica do CUDA é muito profunda, a substituição nacional não pode simplesmente copiar, precisa de uma reconstrução fundamental desse tipo
Ver originalResponder0
CapitalFlowInATeacup
· 2h atrás
Autonomia e controle não são apenas um slogan, são extraídos linha por linha de código assim
Ver originalResponder0
LiquidityLifeguard
· 2h atrás
Na Peking University, trabalha-se com sistemas, na University of Science and Technology of China, com arquitetura, Huawei implementa, esse modelo de produção, ensino e pesquisa é que faz sentido
Ver originalResponder0
BridgeSideEyes
· 2h atrás
A baixa taxa de utilização de poder de processamento tem sido uma dor de cabeça para a Ascend. Quanto ela pode melhorar desta vez? Você tem dados?
Ver originalResponder0
GateUser-de0b9e3b
· 2h atrás
A Huawei está levando a sério o desenvolvimento de compiladores, do MindSpore até esse framework, o ecossistema está sendo lentamente complementado.
Ver originalResponder0
GateUser-26374bb4
· 2h atrás
MoE já depende de gerenciamento, chips nacionais precisam se esforçar nesses detalhes para alcançar o mesmo nível
Ver originalResponder0
  • Fixado