Ni Yayu : Pour les applications intelligentes côté terminal, Guokewei développe un NPU plus efficace et une chaîne d'outils

robot
Création du résumé en cours

Pour investir en bourse, consultez les rapports d’analyse des analystes de Jin Qilin : faisant autorité, professionnels, opportuns, complets—aidez-vous à découvrir des opportunités de thèmes à fort potentiel !

(Source : AiJiWei)

Le 1er avril, lors de la conférence des dirigeants de l’IC en Chine 2026, au forum technique vertical « IA en périphérie et puces de calcul », le directeur du département d’algorithmes d’IA de GuoKeWei, Ni YaYu, a prononcé une allocution intitulée « FlashAttention-4 : conception d’une approche de type pipeline pour l’inférence des nouveaux grands modèles sur NPU ».

À mesure que l’accélération des grands modèles se traduit par des déploiements industriels, l’efficacité d’inférence, la bande passante mémoire et la consommation électrique du système deviennent des goulots d’étranglement clés pour le déploiement sur périphérie. Notamment dans le contexte de l’évolution continue des Transformers et des grands modèles de langage, une mise en œuvre efficace du mécanisme d’attention (Attention) est devenue une percée importante pour l’optimisation de l’architecture des puces et des chaînes d’outils.

Ni YaYu a indiqué que GuoKeWei se concentre sur l’exploration des technologies de pointe telles que FlashAttention sur les plateformes NPU, afin de contribuer à construire une architecture NPU et une chaîne d’outils mieux adaptées au déploiement en production de masse sur périphérie, offrant un support de calcul haute performance pour des scénarios comme la conduite autonome, l’informatique de périphérie, les terminaux intelligents et l’AIGC.

Les défis persistent pour un « FlashAttention version full-feature »

En tant que l’une des structures de calcul centrales des grands modèles, le mécanisme d’attention fait généralement face, en exécution réelle, à des problèmes tels que des surcoûts d’accès mémoire élevés et une efficacité limitée de la pipeline. La proposition de FlashAttention offre une nouvelle voie pour résoudre ce problème.

FlashAttention est un algorithme d’attention précise rapide et économe en mémoire proposé en 2022 par Tri Dao de l’université de Stanford, entre autres. Il réorganise de façon équivalente le processus de calcul de l’attention : en conservant les étapes de calcul intermédiaires dans un cache à bord grâce au calcul par blocs, au Softmax en ligne, à la recomputation et à une pipeline asynchrone, il réduit la pression liée à la bande passante d’accès au stockage externe, améliorant de manière significative l’efficacité de l’inférence.

Au milieu du mois de mars tout juste écoulé, la version FlashAttention 4.0 a été officiellement publiée. Ni YaYu a souligné que, de la 1.0 à la 4.0, FlashAttention a continué à se renforcer en matière de parallélisme, de prise en charge de séquences longues, de calcul en faible précision et d’exécution asynchrone. Cependant, par rapport aux GPU, à l’heure actuelle, les NPU accusent encore un écart dans des capacités comme la puissance de calcul des unités vectorielles, l’agencement de pipelines asynchrones, l’ordonnancement dynamique et les contextes ultra longs. Ni YaYu a indiqué que, pour réaliser un « FlashAttention version full-feature », il faut concevoir de manière coordonnée autour de la pipeline de calcul, de la réutilisation des données et de la bande passante système.

GuoKeWei NPU 4.0 : construire des unités d’inférence plus efficaces

Depuis 2020, GuoKeWei investit de manière continue dans la recherche et le développement autonome de NPU, formant une trajectoire d’évolution allant de GKNPU 1.0 à 4.0, avec une montée en capacités vers un calcul plus puissant, une couverture de modèles plus large et un meilleur ratio performance/efficacité énergétique. À l’heure actuelle, les puces de la gamme d’IA visuelle et d’IA embarquée de GuoKeWei intègrent des NPU de version 3.0, prenant en charge une puissance de 0,5T à 8T, et prenant en charge le déploiement sur puces en périphérie de modèles d’IA tels que la vision, l’audio et les séries temporelles.

Dans la conception d’architecture de GKNPU 4.0, GuoKeWei propose une architecture d’array pulsé renforcé, orientée vers le calcul efficace de l’attention, qui étend de manière ciblée les capacités de calcul de matrices et de vecteurs. Elle renforce le support des opérations clés dans le mécanisme d’attention des grands modèles, comprime les parcours de transfert de données et les surcoûts de la pipeline, et améliore les capacités de calcul en boucle fermée à bord. Cette conception vise à réduire la dépendance à la bande passante externe, à augmenter l’efficacité d’exécution des chaînes d’inférence et à faire face efficacement aux goulots d’étranglement de bande passante, à la fragmentation des valeurs d’activation et à la pression mémoire causée par les contextes ultra longs dans l’inférence des grands modèles.

Renforcer la chaîne d’outils et promouvoir un déploiement efficace à grande échelle

En parallèle de l’évolution de l’architecture NPU, GuoKeWei renforce continuellement les capacités de la chaîne d’outils. La nouvelle génération de GKToolchain 3.0, destinée aux scénarios de puissance de calcul hétérogène sur périphérie, vise à améliorer en priorité les capacités de compilation de perception matérielle, de découpage automatique, de vectorisation automatique, d’écriture/lecture asynchrones des données et d’orchestration de la pipeline de calcul, afin de faire passer le déploiement de modèles de « compatible » à « haute efficacité, scalable ».

En même temps, la chaîne d’outils évolue sur des directions de pointe telles que la gestion dynamique de la mémoire et l’accélération de l’inférence spéculative, améliorant la capacité à soutenir la gestion des contextes longs et des processus d’inférence complexes, pour aider les clients à boucler efficacement le cycle de déploiement de « modèle vers puce ».

À mesure que les applications d’IA passent de la phase d’entraînement à la phase d’inférence, et du cloud aux terminaux, les exigences de l’industrie envers les plateformes de puissance de calcul évoluent : elles passent de « performance de pointe » à des capacités globales telles que « haute efficacité énergétique, production de masse possible, déploiement facile ». Les NPU présentent des avantages de coûts et de consommation électrique significatifs lors du déploiement à grande échelle sur périphérie.

Ni YaYu a déclaré que GuoKeWei continuera de maintenir l’innovation conjointe entre algorithmes et matériel, et d’améliorer sans cesse l’architecture NPU, les capacités produit et l’écosystème de la chaîne d’outils autour des goulots d’étranglement clés de l’inférence des grands modèles, afin de faire évoluer les plateformes de calcul intelligent sur périphérie vers des objectifs de performances plus élevées, de consommation électrique plus faible et de capacités d’ingénierie plus faciles à déployer à grande échelle, tout en fournissant aux clients des solutions de calcul plus compétitives.

Un volume massif d’informations, une analyse précise—tout est sur l’application Sina Finance

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler