Futures
Accédez à des centaines de contrats perpétuels
CFD
Or
Une plateforme pour les actifs mondiaux
Options
Hot
Tradez des options classiques de style européen
Compte unifié
Maximiser l'efficacité de votre capital
Trading démo
Introduction au trading futures
Préparez-vous à trader des contrats futurs
Événements futures
Participez aux événements et gagnez
Demo Trading
Utiliser des fonds virtuels pour faire l'expérience du trading sans risque
Lancer
CandyDrop
Collecte des candies pour obtenir des airdrops
Launchpool
Staking rapide, Gagnez de potentiels nouveaux jetons
HODLer Airdrop
Conservez des GT et recevez d'énormes airdrops gratuitement
Pre-IPOs
Accédez à l'intégralité des introductions en bourse mondiales
Points Alpha
Tradez on-chain et gagnez des airdrops
Points Futures
Gagnez des points Futures et réclamez vos récompenses d’airdrop.
Investissement
Simple Earn
Gagner des intérêts avec des jetons inutilisés
Investissement automatique
Auto-invest régulier
Double investissement
Profitez de la volatilité du marché
Staking souple
Gagnez des récompenses grâce au staking flexible
Prêt Crypto
0 Fees
Mettre en gage un crypto pour en emprunter une autre
Centre de prêts
Centre de prêts intégré
Promotions
Centre d'activités
Participez et gagnez des récompenses
Parrainage
20 USDT
Invitez des amis et gagnez des récompenses
Programme d'affiliation
Obtenez des commissions exclusives
Gate Booster
Développez votre influence et gagnez des airdrops
Annoncement
Mises à jour en temps réel
Blog Gate
Articles sur le secteur de la crypto
AI
Gate AI
Votre assistant IA polyvalent pour toutes vos conversations
Gate AI Bot
Utilisez Gate AI directement dans votre application sociale
GateClaw
Gate Blue Lobster, prêt à l’emploi
Gate for AI Agent
Infrastructure IA, Gate MCP, Skills et CLI
Gate Skills Hub
+10K compétences
De la bureautique au trading, une bibliothèque de compétences tout-en-un pour exploiter pleinement l’IA
GateRouter
Choisissez intelligemment parmi plus de 40 modèles d’IA, avec 0 % de frais supplémentaires
Huawei et l'Université de Science et Technologie de Chine collaborent pour briser le monopole de Nvidia, l'expert en accélération de calcul pour les grands modèles avec le Ascend A3 accélère de 58 %
Selon la surveillance Beating, dans l'évolution des architectures MoE à grande échelle, l'utilisation de puces nationales Ascend pour entraîner de grands modèles est devenue une direction clé pour construire une puissance de calcul AI autonome et contrôlable. Cependant, la plupart des cadres de grands modèles sont basés sur l'écosystème CUDA de NVIDIA, et leur transplantation directe sur la plateforme Ascend peut rencontrer des défis tels qu'une planification de file d'attente matérielle inégale et un faible taux d'utilisation de la puissance de calcul. L'Université de Science et Technologie de Chine, Huawei et l'Université de Pékin ont conjointement lancé le cadre de planification de compilation HyperParallel-MoE, qui ajuste au niveau des tuiles (tile-level) les files d'attente matérielles uniques de l'Ascend A3, dans le but de dépasser le goulet d'étranglement énergétique de la planification parallèle de la puissance de calcul hétérogène.
L'Ascend A3 possède deux types de cœurs : AIC, responsable de la multiplication matricielle, et AIV, qui gère le calcul vectoriel et la communication. Cependant, dans la planification sérielle traditionnelle des opérateurs, ces deux types de cœurs ne peuvent fonctionner qu'en alternance, étant inactifs tour à tour. Les données de test montrent qu'en exécutant un grand modèle de style DeepSeek de 671 milliards sur un cluster de 256 nœuds, le taux d'utilisation de AIC n'est que de 67 %, et 39 % de la latence de routage des experts en communication est exposée sur le chemin critique de calcul.
Les trois principales modifications du noyau HyperParallel-MoE sont les suivantes. Premièrement, la conception d'une primitive d'écriture unilatérale pilotée par AIV, qui déclenche le calcul dès que la tuile de données arrive, sans attendre que l'ensemble soit prêt. Deuxièmement, l'introduction de la génération de tâches de tuiles dépendantes, qui abstrait unifié la communication et le calcul des opérateurs. Troisièmement, l'utilisation d'un ordonnanceur statique pour pré-générer la séquence de tâches, pilotant en parallèle les deux types de cœurs dans un seul noyau, et partageant les résultats intermédiaires via un cache L2 à haute vitesse, réduisant ainsi la latence d'écriture et de lecture de la mémoire HBM lente.
Les tests montrent qu'avec une routage équilibré sur 64 nœuds, le module principal responsable du calcul des experts (MoE-FFN) voit une réduction de la latence d'environ 36 %, ce qui correspond à une augmentation de la vitesse de traitement des données allant jusqu'à 58 % (soit une accélération de 1,49 à 1,58 fois). Lors d'une exécution de bout en bout, la vitesse d'entraînement par étape a également augmenté de 8 % à 9 %. Cela indique que l'efficacité réelle de l'Ascend ne dépend pas uniquement des spécifications matérielles, mais aussi de la capacité du compilateur et du runtime à planifier efficacement les cœurs AIC/AIV.