Nvidia et Alibaba réévaluent l'IA, jettent les FLOPS à la poubelle

SnapshotLaborer · 2026-03-18T12:06:11+00:00

Le 17 mars, Jensen Huang, vêtu de sa veste en cuir emblématique, a parlé pendant plus de deux heures sur la scène de la conférence GTC 2026 d'Nvidia. Après l'événement, pratiquement tout le web parlait du fait qu'"Nvidia veut devenir le roi des Token".Mais en écoutant attentivement ce discours, on découvre que ce qu'Jensen Huang a vraiment martelé à plusieurs reprises, ce n'est pas le Token lui-même, mais les Tokens per Watt (nombre de tokens par watt). Il a clairement énoncé ce concept en présentant un graphique de performance d'inférence et a déclaré franchement : chaque centre de données, chaque usine d'IA, est essentiellement limité par la puissance électrique. Une usine d'1GW ne deviendra jamais une usine de 2GW, c'est la loi physique qui le détermine. À puissance fixe, celui qui a le plus haut rendement en tokens par watt a le coût de production le plus bas et la courbe de revenus la plus abrupte.Cette phrase est le véritable enjeu clé de toute la conférence GTC 2026.Le débat public est passionné par la discussion sur Vera

SnapshotLaborer

2026-03-18 12:06:11

Le 17 mars, Jensen Huang a passé plus de deux heures sur scène lors de la GTC 2026 de NVIDIA, portant sa veste emblématique. Après la présentation, presque tout le web ne parlait que de « NVIDIA visant à devenir le roi du Token ».

Mais en écoutant attentivement ce discours, on se rend compte que ce que Jensen Huang répète vraiment, ce n’est pas le Token en soi, mais Tokens par Watt (Tokens per Watt). Lorsqu’il montrait des graphiques de performance en inférence, il a clairement évoqué ce concept, déclarant franchement : chaque centre de données, chaque usine d’IA, est fondamentalement limité par l’électricité. Une usine de 1 GW ne deviendra jamais une de 2 GW, c’est une loi physique. À puissance fixe, celui qui produit le plus de tokens par watt a les coûts de production les plus faibles, et sa courbe de revenus est la plus raide.

C’est cette phrase qui constitue le véritable point central de cette GTC 2026.

Les discussions populaires portent souvent sur combien Vera Rubin est plus puissante que Blackwell, ou comment Groq LPX peut augmenter la vitesse d’inférence de 35 fois, ou encore NVIDIA qui veut déplacer ses centres de données dans l’espace. Bien sûr, ces sujets sont importants, mais ils expriment tous la même logique sous-jacente : maximiser la production intelligente par watt d’énergie, sous contrainte énergétique.

Lorsque Jensen Huang considère « Tokens/W » comme la mesure clé de la production d’une usine d’IA, il y a en réalité une couche plus profonde, une signification industrielle essentielle : le système de mesure de la compétition en puissance de calcul, qui évolue du simple chip vers le système complet, de la simple valeur de pic vers l’efficacité globale de bout en bout, de « qui a le chip le plus rapide » à « qui convertit le mieux l’énergie en intelligence ».

Dans le contexte actuel des produits et des matrices technologiques, NVIDIA et Jensen Huang sont encore prisonniers du token/w, et il leur reste beaucoup de chemin à parcourir pour devenir le véritable roi du Token.

Il s’agit d’une migration vers un « langage de mesure intelligent », et cette transition ouvre une perspective industrielle bien plus profonde que n’importe quel nouveau chip.

Il est intéressant de noter qu’à la veille de l’ouverture officielle de la GTC, Alibaba a annoncé la création de l’Alibaba Token Hub, dirigé personnellement par Wu Yongming. La stratégie d’Alibaba en matière d’IA ne porte pas le nom d’IA, mais celui de Token, élevant le Token au niveau stratégique de l’IA chez Alibaba.

Cela reflète également que, sous un regard systémique, la compréhension de l’IA devient progressivement une nouvelle norme dans l’industrie. C’est cette idée que cet article souhaite souligner, et c’est aussi la signification profonde de ce texte.

01 La transformation la plus importante de GTC 2026 ne concerne pas le chip lui-même

À GTC 2026, l’attention reste centrée sur Vera Rubin, Rubin POD, LPX, DSX AI Factory, ces nouveaux produits et concepts. Mais si l’on met ces annonces en perspective, on constate qu’elles élargissent la narration de la compétition en puissance de calcul, du simple chip à l’infrastructure de calcul, c’est-à-dire à un ensemble complet comprenant calcul, réseau, stockage, alimentation, refroidissement, systèmes de contrôle et logiciels, formant une véritable usine d’IA.

Rubin est présenté comme une plateforme POD à grande échelle, composée de plusieurs racks formant un système cohérent et massif ; DSX est défini comme une conception de référence pour l’usine d’IA, visant à maximiser le nombre de tokens par watt.

Cela indique que la véritable compétition dans l’industrie ne se limite plus à la puissance d’un seul chip, mais s’étend à la puissance globale du système de calcul. Plus précisément, il s’agit de savoir si l’ensemble du système peut organiser efficacement ses ressources limitées — électricité, refroidissement, réseau — pour produire une sortie IA stable et efficace.

L’unité de mesure concrète est donc le nombre de tokens par watt (Token/W).

Cet article souhaite utiliser cette unité de mesure Tokens/W pour analyser la signification de cette annonce et les opportunités qu’elle ouvre pour le développement de l’industrie des infrastructures IA.

02 Étant donné que la compétition devient systémique, la mesure ne peut plus se limiter au niveau du chip

Les indicateurs de mesure de l’ère des chips sont bien connus : puissance de pointe en FLOPS, bande passante mémoire, FLOPS/W, TOPS/W, bit/J, etc. Ces métriques sont importantes car elles décrivent les capacités limites d’un composant.

Mais cela conduit à une situation embarrassante : dans un centre de calcul intelligent, il n’existe pas d’unité de mesure objective, unifiée et universelle.

En général, la mesure d’un centre de données utilise le mégawatt (MW) comme unité électrique, tandis qu’en Chine, pour construire des centres d’IA, on utilise PFlops (basé sur FP16). Cependant, un cluster avec la même capacité de calcul ou la même consommation électrique, mais avec des chips, réseaux ou refroidissement différents, aura des performances très différentes.

La raison est simple : les anciennes unités de mesure ne mesuraient qu’un seul aspect. La puissance de pointe en FLOPS décrit la capacité théorique d’un seul chip ; bit/J indique l’efficacité énergétique pour le transport local de données ; la bande passante mesure la capacité de communication d’un sous-système. Ce sont toutes des métriques à l’échelle du composant.

Mais une véritable architecture IA doit répondre à une question plus globale : avec un budget de puissance, de refroidissement et d’espace fixe, combien de résultats IA valides peut-on produire ? Cette question ne peut pas être résolue uniquement par des indicateurs au niveau du chip.

Dans le discours de NVIDIA, on voit apparaître des notions comme : coût par token, débit par watt, performance par watt, nombre de tokens par watt.

Le langage de mesure évolue du niveau des composants vers celui du système.

Ainsi, si les métriques courantes au niveau du chip sont la puissance de pointe, la bande passante et bit/J, la métrique plus pertinente au niveau du système est Token/W. La première mesure la capacité d’un composant, la seconde l’efficacité globale de production. La première correspond à une optimisation locale, la seconde à une optimisation systémique.

03 Token/W relie la chaîne énergie à production intelligente

Dans le texte de NVIDIA à GTC 2026, le token est qualifié d’unité de base de l’IA moderne. Cette formulation est très pertinente. Pour les grands modèles de langage, l’inférence, ou les systèmes d’agents, l’objet que l’utilisateur achète en fin de compte, c’est la capacité du système à générer et traiter des tokens.

Du point de vue opérationnel, le token présente trois avantages : 1) il est directement lié au processus d’inférence du modèle ; 2) il est directement lié au modèle de revenus ; 3) il est adapté pour couvrir les nouvelles charges de travail de l’ère de l’inférence.

Agent, dialogues multi-tours, contexte long, recherche augmentée, appels d’outils, chaînes d’inférence : ces nouvelles charges sont difficiles à décrire uniquement en FLOPS, mais laissent des traces dans les dimensions token, latence, débit utile.

Plus important encore, la contrainte fondamentale de l’infrastructure IA aujourd’hui se manifeste de plus en plus directement par des contraintes énergétiques. Selon le rapport « Energy and AI » de l’IEA, d’ici 2030, la consommation électrique mondiale des centres de données atteindra environ 945 TWh, en forte hausse par rapport à aujourd’hui ; l’IA en est l’un des principaux moteurs, notamment aux États-Unis où elle représentera une part importante de cette croissance. En d’autres termes, beaucoup de problèmes futurs de l’industrie IA, qui semblent d’abord liés aux chips, sont en réalité des questions d’électricité, de refroidissement et d’organisation des infrastructures.

Le concept de Token/W a de la valeur parce qu’il relie la chaîne la plus essentielle de l’industrie IA : l’entrée électrique, qui, via calcul, réseau, stockage, gestion et refroidissement, se transforme finalement en tokens produits.

De ce point de vue, Token/W n’est pas simplement un substitut à FLOPS/W ou bit/J. Il ajoute une couche de perspective jusque-là peu prise en compte : combien d’énergie l’architecture IA convertit-elle en intelligence ?

Je pense que le point le plus important à discuter lors de cette GTC, c’est précisément ici : il ne faut plus considérer le chip isolément, mais l’insérer dans le système, puis dans l’ensemble industriel.

C’est aussi l’angle que je préconise depuis toujours. Observer un chip IA ne doit pas se limiter à la puissance de pointe, à la mémoire, à la taille ou aux interfaces. Il faut aussi voir comment il collabore dans le réseau, comment il est déployé dans le rack, comment il est alimenté dans le parc, comment il influence la structure de coûts chez le client, et enfin comment il se traduit en résultats concrets en activité.

GTC 2026, dans une certaine mesure, valide cette vision systémique. Car lorsque NVIDIA elle-même commence à centrer sa narration sur l’usine d’IA, cela montre que l’industrie passe d’un centrage sur le chip de calcul IA à une vision centrée sur le système de calcul.

C’est une étape cruciale. Beaucoup d’industries, dans leurs premières phases, se focalisent sur les paramètres des composants, car ils sont faciles à mesurer et à promouvoir. Mais dès que l’on entre dans la phase de déploiement à grande échelle, ce qui détermine la réussite ou l’échec, c’est la capacité d’organisation du système. Aujourd’hui, l’infrastructure IA en est à ce stade.

04 En allant au-delà de Token/W, l’importance de l’interconnexion optique devient évidente

Lorsque la mesure passe au niveau du système, de nombreux éléments auparavant considérés comme accessoires gagnent en importance.

L’interconnexion optique en est un exemple typique.

Historiquement, l’industrie abordait l’interconnexion optique sous l’angle des modules optiques, de la communication ou des composants : bande passante plus élevée, transmission plus longue, pJ/bit plus faible, densité de bande passante améliorée, pertes d’insertion réduites. Ces aspects sont importants, mais ils restent au niveau des composants ou des sous-systèmes. Avec le cadre Token/W, la valeur de l’interconnexion optique devient plus évidente : elle réduit le coût énergétique du transport de données, améliorant la capacité des grands systèmes IA à convertir l’électricité en tokens.

Lorsqu’on parle des produits de NVIDIA en réseau optique, le CPO basé sur la photonique peut atteindre une efficacité énergétique jusqu’à 5 fois supérieure à celle des modules optiques, tout en réduisant la latence et en permettant une extension à plus grande échelle des usines d’IA.

L’enjeu n’est pas seulement d’avoir une liaison plus avancée, mais d’augmenter la taille du système et son efficacité globale.

D’un point de vue industriel, cela se comprend aisément. Avec des modèles de plus en plus grands, des contextes plus longs, des clusters plus vastes, une grande partie de la consommation énergétique ne se situe pas dans les unités arithmétiques, mais dans le transport de données, la communication inter-chip, inter-plaque, inter-rack ou inter-POD.

À ce stade, augmenter Token/W ne peut plus se faire uniquement par des GPU plus puissants, mais nécessite aussi des interconnexions plus efficaces.

Ainsi, du point de vue de Token/W, développer l’interconnexion optique n’est pas seulement une avancée technologique de pointe, mais une nécessité pour réduire la consommation d’énergie dans les grands systèmes IA.

05 La computation optique, plus avancée que l’interconnexion optique, commence aussi à faire ses preuves

La computation optique est en réalité plus précoce que l’interconnexion optique, cela doit être dit honnêtement.

Les questions de généralité, de précision, de compilateurs, de fabrication cohérente et d’intégration système sont encore en évolution. Mais si l’on adopte une perspective systémique, leur importance industrielle devient plus claire que jamais.

Car Token/W concerne l’efficacité énergétique de bout en bout. Celui qui peut, sur un chemin de calcul haute fréquence, haute densité, et réplicable, réduire significativement la consommation d’énergie, aura une chance d’améliorer l’efficacité de production de tokens à l’échelle du système. Ce n’est pas une exigence que la computation optique remplace tout le GPU, ni qu’elle devienne instantanément la base universelle du calcul.

Elle ne demande qu’une chose : dans certains workloads clés, réduire le J/token de l’ensemble du système, et augmenter la production de tokens sous un budget de puissance fixe.

C’est pourquoi la narration autour de la computation optique doit évoluer d’une focalisation sur l’efficacité d’un seul composant vers une contribution systémique à l’économie d’énergie. Si l’industrie ne regarde que TOPS/W ou MAC/J, cela reste une histoire de laboratoire ; mais si elle regarde Token/W, elle peut entrer dans la discussion sur l’infrastructure.

Ce changement est particulièrement crucial pour la computation optique, car il lui donne enfin un langage supérieur pour dialoguer avec les clients, les parcs, l’électricité et les investissements.

06 Lorsque la mesure de la puissance de calcul passe du chip au système, l’interconnexion optique et la computation optique deviennent centrales

Tant que la compétition en puissance de calcul se limite principalement au niveau du chip, l’interconnexion optique ressemble à une technologie d’E/S, et la computation optique à une exploration de composants de pointe.

Mais lorsque la compétition migre vers l’infrastructure de systèmes IA à grande échelle, la donne change. L’efficacité du système dépend de plus en plus de la consommation énergétique des calculs intensifs, du transport de données, de la gestion du contexte, de la collaboration entre nœuds, ainsi que de l’organisation de l’alimentation et du refroidissement. Et ce sont précisément ces domaines où l’optique peut jouer un rôle clé.

Du point de vue de Token/W, l’interconnexion optique résout le coût électrique du transport derrière chaque token ; la computation optique cherche à réduire une partie du coût électrique du calcul associé à chaque token. La combinaison des deux influence directement l’efficacité globale de production de tokens du système.

C’est la raison fondamentale pour laquelle elles entrent dans la ligne de front industrielle.

Plus concrètement, au-delà de la capacité et de l’offre de chips, les contraintes futures des centres de données et des usines d’IA incluront aussi l’accès au réseau électrique, le refroidissement des salles, la consommation dans les parcs, la densité de puissance dans les racks, et la rapidité de mise en service. Les évaluations de l’Agence Internationale de l’Énergie sur la consommation énergétique de l’IA, ainsi que la déclaration de NVIDIA sur l’usine d’IA, convergent toutes vers une même idée : l’infrastructure IA devient un système dont la mesure se fait en énergie.

En regardant dans cette nouvelle direction, l’interconnexion optique et la computation optique traitent des enjeux de plus en plus coûteux et difficiles à optimiser par la seule voie électrique traditionnelle : le coût énergétique du transport de données, et la consommation par unité de calcul à haute densité.

Ce qui se cache derrière, c’est une vision plus complète du système. Et c’est aussi la raison pour laquelle GTC 2026 met à nouveau en avant la photonique et la silicophotonique : lorsque la mesure de la puissance de calcul passe du chip au système, l’optique devient une infrastructure industrielle digne d’être construite.

Dans cette optique, CPO et systèmes de computation optique ont un avenir très prometteur !

En conclusion : la voie vers l’AGI

Dans leur travail quotidien, les auteurs ont toujours plaidé pour l’établissement de standards objectifs et mesurables de la puissance de calcul, et utilisent depuis longtemps la méthode Tokens/W pour évaluer les tests de différents chips.

En regardant l’histoire technologique, lorsque la puissance spécifique d’un moteur à combustion interne — c’est-à-dire l’énergie délivrée par rapport à son poids — augmente, la voiture apparaît, l’avion peut décoller, la fusée peut s’envoler.

Et à l’ère de l’IA, lorsque le rapport entre la production d’un système IA (actuellement en tokens) et sa consommation d’énergie devient de plus en plus élevé, l’intelligence devient de plus en plus brillante, et l’AGI pourrait naître de cette dynamique.

Ce que cette GTC 2026 a de plus précieux à retenir, ce n’est pas la gloire ou la défaite d’une seule entreprise, ni si Jensen Huang deviendra « le roi du Token », mais la clarification d’un nouveau standard de mesure pour l’ère de l’IA.

Plus encore, NVIDIA, Alibaba, et peut-être d’autres géants de l’industrie, commencent à prendre conscience qu’il faut adopter une vision systémique pour faire évoluer l’industrie IA.

C’est en réalité une cohérence avec la tendance principale de l’évolution de la civilisation humaine : utiliser moins d’énergie pour collecter, transmettre et traiter toujours plus d’informations.

L’AGI ne fera pas exception à cette règle !

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.