Huawei e a Universidade de Ciência e Tecnologia da China unem-se para romper o monopólio da Nvidia, o especialista em cálculo de modelos grandes Ascend A3 acelera o processamento em 58%

De acordo com o monitoramento Beating, na evolução de arquiteturas MoE em grande escala, o uso de chips nacionais Ascend para treinar grandes modelos tornou-se uma direção chave para construir uma capacidade de IA autônoma e controlável. No entanto, a maioria das estruturas de grandes modelos baseia-se no ecossistema CUDA da Nvidia, e a sua migração direta para a plataforma Ascend frequentemente enfrenta desafios como agendamento desigual de filas de hardware e baixa utilização de capacidade de cálculo. A Universidade de Ciência e Tecnologia da China, Huawei e Universidade de Pequim lançaram conjuntamente a estrutura de compilação e agendamento HyperParallel-MoE, que ajusta a nível de azulejo (tile-level) as filas de hardware únicas do Ascend A3, com o objetivo de superar o gargalo de eficiência energética no agendamento paralelo de capacidades heterogêneas.

O Ascend A3 possui duas categorias de núcleos: AIC, responsável por multiplicação de matrizes, e AIV, que trata de cálculos vetoriais e comunicação. No entanto, sob o agendamento serial tradicional de operadores, essas duas categorias de núcleos só podem trabalhar alternadamente, ficando ociosos em turnos. Dados de testes mostram que, ao rodar um grande modelo estilo DeepSeek de 671 bilhões de parâmetros em um cluster de 256 nós, a utilização do AIC é de apenas 67%, e 39% da latência de roteamento de especialistas na comunicação é exposta na rota crítica de cálculo.

As principais mudanças na HyperParallel-MoE incluem três itens. Primeiro, o design de uma primitive de escrita unilateral impulsionada pelo AIV, que dispara o cálculo assim que os dados do azulejo chegam, sem precisar esperar que toda a batch esteja completa. Segundo, a introdução de geração de tarefas de azulejo com percepção de dependências, unificando a abstração de operadores de comunicação e cálculo. Terceiro, o pré-gerador de tarefas com agendamento estático, que conduz a paralelização dos dois tipos de núcleos dentro de um único kernel, utilizando o cache L2 de alta velocidade para compartilhar resultados intermediários, reduzindo atrasos na escrita e leitura na memória lenta HBM.

Testes mostram que, sob roteamento balanceado de 64 nós, o módulo principal responsável pelo cálculo de especialistas (MoE-FFN) reduziu a latência em aproximadamente 36%, com uma melhoria de até 58% na velocidade de processamento de dados (de 1,49 para 1,58 vezes mais rápido). Em execução end-to-end, a velocidade de treinamento por passo também aumentou entre 8% e 9%. Isso indica que a eficiência energética real do Ascend depende não apenas das especificações de hardware, mas também de se o compilador e o tempo de execução podem agendar de forma eficiente os núcleos AIC/AIV.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 7
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
GateUser-76dcd439
· 22m atrás
Os chips nacionais finalmente têm um quadro de otimização dedicado ao MoE, a abordagem de agendamento em nível de fatia HyperParallel-MoE é bastante detalhada
Ver originalResponder0
TreatEarningsAsSnacks
· 4h atrás
A barreira ecológica do CUDA é demasiado profunda, a substituição nacional não pode simplesmente copiar, é necessário esse tipo de reconstrução fundamental
Ver originalResponder0
CapitalFlowInATeacup
· 4h atrás
Autossuficiência controlada não é um slogan, é algo que se consegue extrair linha por linha de código
Ver originalResponder0
LiquidityLifeguard
· 4h atrás
Peking University faz sistemas, a Universidade de Ciência e Tecnologia faz arquitetura, Huawei implementa, esse modelo de produção, ensino e pesquisa é que faz sentido
Ver originalResponder0
BridgeSideEyes
· 4h atrás
A baixa utilização do poder de computação tem sido uma dor de cabeça para a Ascend. Quanto é que podemos melhorar desta vez? Há dados disponíveis?
Ver originalResponder0
GateUser-de0b9e3b
· 4h atrás
A Huawei está a levar a sério o desenvolvimento de compiladores, desde o MindSpore até este conjunto de estruturas, o ecossistema está a ser lentamente complementado.
Ver originalResponder0
GateUser-26374bb4
· 4h atrás
MoE já depende de agendamento, os chips nacionais precisam de esforço nesses detalhes para alcançar o mesmo nível
Ver originalResponder0
  • Fixado