Futures
Accédez à des centaines de contrats perpétuels
TradFi
Or
Une plateforme pour les actifs mondiaux
Options
Hot
Tradez des options classiques de style européen
Compte unifié
Maximiser l'efficacité de votre capital
Trading démo
Introduction au trading futures
Préparez-vous à trader des contrats futurs
Événements futures
Participez aux événements et gagnez
Demo Trading
Utiliser des fonds virtuels pour faire l'expérience du trading sans risque
Lancer
CandyDrop
Collecte des candies pour obtenir des airdrops
Launchpool
Staking rapide, Gagnez de potentiels nouveaux jetons
HODLer Airdrop
Conservez des GT et recevez d'énormes airdrops gratuitement
Launchpad
Soyez les premiers à participer au prochain grand projet de jetons
Points Alpha
Tradez on-chain et gagnez des airdrops
Points Futures
Gagnez des points Futures et réclamez vos récompenses d’airdrop.
Investissement
Simple Earn
Gagner des intérêts avec des jetons inutilisés
Investissement automatique
Auto-invest régulier
Double investissement
Profitez de la volatilité du marché
Staking souple
Gagnez des récompenses grâce au staking flexible
Prêt Crypto
0 Fees
Mettre en gage un crypto pour en emprunter une autre
Centre de prêts
Centre de prêts intégré
Ni Yayu : Pour les applications intelligentes côté terminal, Guokewei développe un NPU plus efficace et une chaîne d'outils
(Source : AiJiWei)
Le 1er avril, lors de la conférence des dirigeants de l’IC en Chine 2026, au forum technique vertical « IA en périphérie et puces de calcul », le directeur du département d’algorithmes d’IA de GuoKeWei, Ni YaYu, a prononcé une allocution intitulée « FlashAttention-4 : conception d’une approche de type pipeline pour l’inférence des nouveaux grands modèles sur NPU ».
À mesure que l’accélération des grands modèles se traduit par des déploiements industriels, l’efficacité d’inférence, la bande passante mémoire et la consommation électrique du système deviennent des goulots d’étranglement clés pour le déploiement sur périphérie. Notamment dans le contexte de l’évolution continue des Transformers et des grands modèles de langage, une mise en œuvre efficace du mécanisme d’attention (Attention) est devenue une percée importante pour l’optimisation de l’architecture des puces et des chaînes d’outils.
Ni YaYu a indiqué que GuoKeWei se concentre sur l’exploration des technologies de pointe telles que FlashAttention sur les plateformes NPU, afin de contribuer à construire une architecture NPU et une chaîne d’outils mieux adaptées au déploiement en production de masse sur périphérie, offrant un support de calcul haute performance pour des scénarios comme la conduite autonome, l’informatique de périphérie, les terminaux intelligents et l’AIGC.
Les défis persistent pour un « FlashAttention version full-feature »
En tant que l’une des structures de calcul centrales des grands modèles, le mécanisme d’attention fait généralement face, en exécution réelle, à des problèmes tels que des surcoûts d’accès mémoire élevés et une efficacité limitée de la pipeline. La proposition de FlashAttention offre une nouvelle voie pour résoudre ce problème.
FlashAttention est un algorithme d’attention précise rapide et économe en mémoire proposé en 2022 par Tri Dao de l’université de Stanford, entre autres. Il réorganise de façon équivalente le processus de calcul de l’attention : en conservant les étapes de calcul intermédiaires dans un cache à bord grâce au calcul par blocs, au Softmax en ligne, à la recomputation et à une pipeline asynchrone, il réduit la pression liée à la bande passante d’accès au stockage externe, améliorant de manière significative l’efficacité de l’inférence.
Au milieu du mois de mars tout juste écoulé, la version FlashAttention 4.0 a été officiellement publiée. Ni YaYu a souligné que, de la 1.0 à la 4.0, FlashAttention a continué à se renforcer en matière de parallélisme, de prise en charge de séquences longues, de calcul en faible précision et d’exécution asynchrone. Cependant, par rapport aux GPU, à l’heure actuelle, les NPU accusent encore un écart dans des capacités comme la puissance de calcul des unités vectorielles, l’agencement de pipelines asynchrones, l’ordonnancement dynamique et les contextes ultra longs. Ni YaYu a indiqué que, pour réaliser un « FlashAttention version full-feature », il faut concevoir de manière coordonnée autour de la pipeline de calcul, de la réutilisation des données et de la bande passante système.
GuoKeWei NPU 4.0 : construire des unités d’inférence plus efficaces
Depuis 2020, GuoKeWei investit de manière continue dans la recherche et le développement autonome de NPU, formant une trajectoire d’évolution allant de GKNPU 1.0 à 4.0, avec une montée en capacités vers un calcul plus puissant, une couverture de modèles plus large et un meilleur ratio performance/efficacité énergétique. À l’heure actuelle, les puces de la gamme d’IA visuelle et d’IA embarquée de GuoKeWei intègrent des NPU de version 3.0, prenant en charge une puissance de 0,5T à 8T, et prenant en charge le déploiement sur puces en périphérie de modèles d’IA tels que la vision, l’audio et les séries temporelles.
Dans la conception d’architecture de GKNPU 4.0, GuoKeWei propose une architecture d’array pulsé renforcé, orientée vers le calcul efficace de l’attention, qui étend de manière ciblée les capacités de calcul de matrices et de vecteurs. Elle renforce le support des opérations clés dans le mécanisme d’attention des grands modèles, comprime les parcours de transfert de données et les surcoûts de la pipeline, et améliore les capacités de calcul en boucle fermée à bord. Cette conception vise à réduire la dépendance à la bande passante externe, à augmenter l’efficacité d’exécution des chaînes d’inférence et à faire face efficacement aux goulots d’étranglement de bande passante, à la fragmentation des valeurs d’activation et à la pression mémoire causée par les contextes ultra longs dans l’inférence des grands modèles.
Renforcer la chaîne d’outils et promouvoir un déploiement efficace à grande échelle
En parallèle de l’évolution de l’architecture NPU, GuoKeWei renforce continuellement les capacités de la chaîne d’outils. La nouvelle génération de GKToolchain 3.0, destinée aux scénarios de puissance de calcul hétérogène sur périphérie, vise à améliorer en priorité les capacités de compilation de perception matérielle, de découpage automatique, de vectorisation automatique, d’écriture/lecture asynchrones des données et d’orchestration de la pipeline de calcul, afin de faire passer le déploiement de modèles de « compatible » à « haute efficacité, scalable ».
En même temps, la chaîne d’outils évolue sur des directions de pointe telles que la gestion dynamique de la mémoire et l’accélération de l’inférence spéculative, améliorant la capacité à soutenir la gestion des contextes longs et des processus d’inférence complexes, pour aider les clients à boucler efficacement le cycle de déploiement de « modèle vers puce ».
À mesure que les applications d’IA passent de la phase d’entraînement à la phase d’inférence, et du cloud aux terminaux, les exigences de l’industrie envers les plateformes de puissance de calcul évoluent : elles passent de « performance de pointe » à des capacités globales telles que « haute efficacité énergétique, production de masse possible, déploiement facile ». Les NPU présentent des avantages de coûts et de consommation électrique significatifs lors du déploiement à grande échelle sur périphérie.
Ni YaYu a déclaré que GuoKeWei continuera de maintenir l’innovation conjointe entre algorithmes et matériel, et d’améliorer sans cesse l’architecture NPU, les capacités produit et l’écosystème de la chaîne d’outils autour des goulots d’étranglement clés de l’inférence des grands modèles, afin de faire évoluer les plateformes de calcul intelligent sur périphérie vers des objectifs de performances plus élevées, de consommation électrique plus faible et de capacités d’ingénierie plus faciles à déployer à grande échelle, tout en fournissant aux clients des solutions de calcul plus compétitives.
Un volume massif d’informations, une analyse précise—tout est sur l’application Sina Finance