Huawei et l'Université de Science et Technologie de Chine collaborent pour briser le monopole de Nvidia, l'expert en accélération de calcul pour les grands modèles avec le Ascend A3 accélère de 58 %

Selon la surveillance Beating, dans l'évolution des architectures MoE à grande échelle, l'utilisation de puces nationales Ascend pour entraîner de grands modèles est devenue une direction clé pour construire une puissance de calcul AI autonome et contrôlable. Cependant, la plupart des cadres de grands modèles sont basés sur l'écosystème CUDA de NVIDIA, et leur transplantation directe sur la plateforme Ascend peut rencontrer des défis tels qu'une planification de file d'attente matérielle inégale et un faible taux d'utilisation de la puissance de calcul. L'Université de Science et Technologie de Chine, Huawei et l'Université de Pékin ont conjointement lancé le cadre de planification de compilation HyperParallel-MoE, qui ajuste au niveau des tuiles (tile-level) les files d'attente matérielles uniques de l'Ascend A3, dans le but de dépasser le goulet d'étranglement énergétique de la planification parallèle de la puissance de calcul hétérogène.

L'Ascend A3 possède deux types de cœurs : AIC, responsable de la multiplication matricielle, et AIV, qui gère le calcul vectoriel et la communication. Cependant, dans la planification sérielle traditionnelle des opérateurs, ces deux types de cœurs ne peuvent fonctionner qu'en alternance, étant inactifs tour à tour. Les données de test montrent qu'en exécutant un grand modèle de style DeepSeek de 671 milliards sur un cluster de 256 nœuds, le taux d'utilisation de AIC n'est que de 67 %, et 39 % de la latence de routage des experts en communication est exposée sur le chemin critique de calcul.

Les trois principales modifications du noyau HyperParallel-MoE sont les suivantes. Premièrement, la conception d'une primitive d'écriture unilatérale pilotée par AIV, qui déclenche le calcul dès que la tuile de données arrive, sans attendre que l'ensemble soit prêt. Deuxièmement, l'introduction de la génération de tâches de tuiles dépendantes, qui abstrait unifié la communication et le calcul des opérateurs. Troisièmement, l'utilisation d'un ordonnanceur statique pour pré-générer la séquence de tâches, pilotant en parallèle les deux types de cœurs dans un seul noyau, et partageant les résultats intermédiaires via un cache L2 à haute vitesse, réduisant ainsi la latence d'écriture et de lecture de la mémoire HBM lente.

Les tests montrent qu'avec une routage équilibré sur 64 nœuds, le module principal responsable du calcul des experts (MoE-FFN) voit une réduction de la latence d'environ 36 %, ce qui correspond à une augmentation de la vitesse de traitement des données allant jusqu'à 58 % (soit une accélération de 1,49 à 1,58 fois). Lors d'une exécution de bout en bout, la vitesse d'entraînement par étape a également augmenté de 8 % à 9 %. Cela indique que l'efficacité réelle de l'Ascend ne dépend pas uniquement des spécifications matérielles, mais aussi de la capacité du compilateur et du runtime à planifier efficacement les cœurs AIC/AIV.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 8
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
MevTeaTime
· Il y a 1h
UTeM + Huawei + Peking University, cette combinaison a de la valeur, hâte de voir l'ouverture du code
Voir l'originalRépondre0
GateUser-76dcd439
· Il y a 5h
Les puces domestiques ont enfin un cadre d'optimisation dédié pour MoE, la stratégie de planification au niveau des tuiles HyperParallel-MoE est assez détaillée.
Voir l'originalRépondre0
TreatEarningsAsSnacks
· Il y a 8h
La barrière écologique de CUDA est trop profonde, le remplacement national ne peut pas se faire en copiant simplement, il faut une telle reconstruction fondamentale
Voir l'originalRépondre0
CapitalFlowInATeacup
· Il y a 9h
L'autonomie et le contrôle ne sont pas des slogans, ce sont des lignes de code extraites ligne par ligne.
Voir l'originalRépondre0
LiquidityLifeguard
· Il y a 9h
Pékin University développe des systèmes, l'Université de Science et Technologie de Chine construit l'architecture, Huawei met en œuvre, ce modèle de production, d'enseignement et de recherche est vraiment adapté.
Voir l'originalRépondre0
BridgeSideEyes
· Il y a 9h
Le faible taux d'utilisation de la puissance de calcul a toujours été un point sensible pour Ascend. Combien peut-on améliorer cette fois-ci ? Y a-t-il des données ?
Voir l'originalRépondre0
GateUser-de0b9e3b
· Il y a 9h
Huawei prend la création de compilateurs au sérieux, allant de MindSpore à cette architecture, l'écosystème se complète lentement.
Voir l'originalRépondre0
GateUser-26374bb4
· Il y a 9h
MoE est déjà dépendant de la gestion, pour que les puces domestiques puissent rattraper leur retard, il faut faire des efforts sur ces détails
Voir l'originalRépondre0
  • Épinglé