De acordo com o monitoramento Beating, na evolução de arquiteturas MoE em grande escala, o uso de chips nacionais Ascend para treinar grandes modelos tornou-se uma direção chave para construir uma capacidade de IA autônoma e controlável. No entanto, a maioria das estruturas de grandes modelos baseia-se no ecossistema CUDA da Nvidia, e a sua migração direta para a plataforma Ascend frequentemente enfrenta desafios como agendamento desigual de filas de hardware e baixa utilização de capacidade de cálculo. A Universidade de Ciência e Tecnologia da China, Huawei e Universidade de Pequim lançaram conjuntamente a estrutura de compilação e agendamento HyperParallel-MoE, que ajusta a nível de azulejo (tile-level) as filas de hardware únicas do Ascend A3, com o objetivo de superar o gargalo de eficiência energética no agendamento paralelo de capacidades heterogêneas.

O Ascend A3 possui duas categorias de núcleos: AIC, responsável por multiplicação de matrizes, e AIV, que trata de cálculos vetoriais e comunicação. No entanto, sob o agendamento serial tradicional de operadores, essas duas categorias de núcleos só podem trabalhar alternadamente, ficando ociosos em turnos. Dados de testes mostram que, ao rodar um grande modelo estilo DeepSeek de 671 bilhões de parâmetros em um cluster de 256 nós, a utilização do AIC é de apenas 67%, e 39% da latência de roteamento de especialistas na comunicação é exposta na rota crítica de cálculo.

As principais mudanças na HyperParallel-MoE incluem três itens. Primeiro, o design de uma primitive de escrita unilateral impulsionada pelo AIV, que dispara o cálculo assim que os dados do azulejo chegam, sem precisar esperar que toda a batch esteja completa. Segundo, a introdução de geração de tarefas de azulejo com percepção de dependências, unificando a abstração de operadores de comunicação e cálculo. Terceiro, o pré-gerador de tarefas com agendamento estático, que conduz a paralelização dos dois tipos de núcleos dentro de um único kernel, utilizando o cache L2 de alta velocidade para compartilhar resultados intermediários, reduzindo atrasos na escrita e leitura na memória lenta HBM.

Testes mostram que, sob roteamento balanceado de 64 nós, o módulo principal responsável pelo cálculo de especialistas (MoE-FFN) reduziu a latência em aproximadamente 36%, com uma melhoria de até 58% na velocidade de processamento de dados (de 1,49 para 1,58 vezes mais rápido). Em execução end-to-end, a velocidade de treinamento por passo também aumentou entre 8% e 9%. Isso indica que a eficiência energética real do Ascend depende não apenas das especificações de hardware, mas também de se o compilador e o tempo de execução podem agendar de forma eficiente os núcleos AIC/AIV.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

10 gostos

Recompensa
10
7
Republicar
Partilhar

Comentar

Adicionar um comentário

GateUser-76dcd439

· 22m atrás

Os chips nacionais finalmente têm um quadro de otimização dedicado ao MoE, a abordagem de agendamento em nível de fatia HyperParallel-MoE é bastante detalhada

Ver originalResponder0

TreatEarningsAsSnacks

· 4h atrás

A barreira ecológica do CUDA é demasiado profunda, a substituição nacional não pode simplesmente copiar, é necessário esse tipo de reconstrução fundamental

Ver originalResponder0

CapitalFlowInATeacup

· 4h atrás

Autossuficiência controlada não é um slogan, é algo que se consegue extrair linha por linha de código

Ver originalResponder0

LiquidityLifeguard

· 4h atrás

Peking University faz sistemas, a Universidade de Ciência e Tecnologia faz arquitetura, Huawei implementa, esse modelo de produção, ensino e pesquisa é que faz sentido

Ver originalResponder0

BridgeSideEyes

· 4h atrás

A baixa utilização do poder de computação tem sido uma dor de cabeça para a Ascend. Quanto é que podemos melhorar desta vez? Há dados disponíveis?

Ver originalResponder0

GateUser-de0b9e3b

· 4h atrás

A Huawei está a levar a sério o desenvolvimento de compiladores, desde o MindSpore até este conjunto de estruturas, o ecossistema está a ser lentamente complementado.

Ver originalResponder0

GateUser-26374bb4

· 4h atrás

MoE já depende de agendamento, os chips nacionais precisam de esforço nesses detalhes para alcançar o mesmo nível

Ver originalResponder0

Tópicos em destaque
Ver mais
#
StockTradingChallengeUpTo17000U
15.92M Popularidade
#
USIranDraftDeal
285.97K Popularidade
#
IsraelStrikesIranBTCPlunges
49.15K Popularidade
#
2gGoldEvery10Minutes
3.04M Popularidade
#
HYPEMarketCapSurpassesDOGE
12.64M Popularidade

Fixado

Huawei e a Universidade de Ciência e Tecnologia da China unem-se para romper o monopólio da Nvidia, o especialista em cálculo de modelos grandes Ascend A3 acelera o processamento em 58%

Tópicos em destaque

StockTradingChallengeUpTo17000U

USIranDraftDeal

IsraelStrikesIranBTCPlunges

2gGoldEvery10Minutes

HYPEMarketCapSurpassesDOGE

Fixado