Discours complet de Huang Renxun à la GTC : L'ère du raisonnement est arrivée, les homards sont le nouveau système d'exploitation

Auteur original : Bao Yilong

Source originale : Wall Street Insights

Le 16 mars 2026, la conférence GTC 2026 de Nvidia a officiellement débuté, avec le fondateur et PDG Huang Renxun prononçant le discours d’ouverture.

Lors de cette conférence considérée comme « le pèlerinage annuel de l’industrie de l’IA », Huang Renxun a expliqué la transformation de Nvidia, passant d’une « société de puces » à une « société d’infrastructure et d’usines d’IA ». Face aux préoccupations du marché concernant la pérennité des performances et les perspectives de croissance, Huang a détaillé la logique commerciale sous-jacente qui stimule la croissance future — « l’économie des usines de tokens ».

Les prévisions de performance sont extrêmement optimistes : « une demande d’au moins 1 000 milliards de dollars d’ici 2027 »

Au cours des deux dernières années, la demande mondiale en calcul pour l’IA a explosé de façon exponentielle. Avec l’évolution des grands modèles, passant de la « perception » et la « génération » à la « déduction » et à « l’action (exécution de tâches) », la consommation de puissance de calcul a fortement augmenté. Concernant le plafond des commandes et des revenus, très surveillé par le marché, Huang a exprimé des attentes très fortes.

Dans son discours, Huang a déclaré franchement :

L’année dernière, je disais que nous avions une demande très fiable de 500 milliards de dollars, couvrant Blackwell et Rubin jusqu’en 2026. Maintenant, ici même, je vois une demande d’au moins 1 000 milliards de dollars d’ici 2027.

Cette prévision de l’ordre du billion de dollars a momentanément fait bondir le cours de Nvidia de plus de 4,3 %.

De plus, il a ajouté :

Cela est-il raisonnable ? C’est ce dont je vais parler maintenant. En réalité, nous serons même en situation de demande dépassant l’offre. Je suis certain que la demande réelle en calcul sera bien plus élevée.

Huang a souligné que les systèmes Nvidia actuels ont déjà prouvé qu’ils sont « l’infrastructure la moins coûteuse au monde ». Étant capable de faire fonctionner presque tous les modèles d’IA dans tous les domaines, cette universalité permet aux clients d’utiliser pleinement cette demande de 1 000 milliards de dollars, tout en assurant une longue durée de vie.

Actuellement, 60 % des activités de Nvidia proviennent des cinq plus grands fournisseurs de cloud massifs, tandis que les 40 % restants sont répartis dans des domaines tels que le cloud souverain, l’entreprise, l’industrie, la robotique et le edge computing.

L’économie des usines de tokens : la performance par watt détermine la survie commerciale

Pour expliquer la rationalité de cette demande de 1 000 milliards de dollars, Huang a présenté une nouvelle logique commerciale aux PDG du monde entier. Il a souligné que, à l’avenir, les centres de données ne seront plus de simples entrepôts de stockage, mais des « usines » produisant des tokens (unités fondamentales générées par l’IA).

Huang a insisté :

Chaque centre de données, chaque usine, est par définition limité par l’électricité. Une usine de 1 GW (gigawatt) ne deviendra jamais une de 2 GW, c’est une loi physique et atomique. Avec une puissance fixe, celui qui a le meilleur rendement par watt pour produire des tokens aura les coûts de production les plus faibles.

Huang a divisé les services d’IA futurs en cinq niveaux commerciaux :

  • Niveau gratuit (haute capacité de traitement, faible vitesse)
  • Niveau intermédiaire (~3 dollars par million de tokens)
  • Niveau avancé (~6 dollars par million de tokens)
  • Niveau ultra-rapide (~45 dollars par million de tokens)
  • Niveau hyper-rapide (~150 dollars par million de tokens)

Il a indiqué qu’avec la croissance des modèles, la longueur du contexte et la sophistication de l’IA, celle-ci deviendra plus intelligente, mais la vitesse de génération des tokens ralentira. Huang a déclaré :

Dans cette usine de tokens, votre débit et la vitesse de génération de tokens se traduiront directement en revenus précis pour l’année prochaine.

Huang a souligné que l’architecture de Nvidia permet à ses clients d’atteindre une capacité de traitement très élevée dans le niveau gratuit, tout en augmentant la performance jusqu’à 35 fois dans le niveau de déduction à la valeur la plus élevée.

Vera Rubin a accéléré de 350 fois en deux ans, Groq comble le gap de l’inférence ultra-rapide

Face à cette limite physique, Nvidia a présenté son système d’IA le plus complexe à ce jour : Vera Rubin. Huang a déclaré :

Autrefois, je montrais une puce Hopper, c’était mignon. Mais Vera Rubin, c’est tout le système. Dans ce système entièrement refroidi par liquide, éliminant totalement les câbles traditionnels, le rack qui prenait deux jours à installer il y a peu, ne prend plus que deux heures.

Huang a expliqué qu’en concevant une synergie extrême entre hardware et software, Vera Rubin a permis de réaliser des progrès spectaculaires dans un centre de 1 GW :

En deux ans seulement, nous avons porté la vitesse de génération de tokens de 22 millions à 700 millions, soit une croissance de 350 fois. La loi de Moore ne permet qu’une augmentation d’environ 1,5 fois sur la même période.

Pour résoudre le problème de bande passante dans le cas d’une inférence ultra-rapide (par exemple 1000 tokens/sec), Nvidia a proposé une solution intégrée en rassemblant la société acquise Groq : une inférence asymétrique séparée. Huang explique :

Ces deux processeurs ont des caractéristiques très différentes. La puce Groq dispose de 500 MB de SRAM, tandis qu’une puce Rubin possède 288 Go de mémoire.

Huang a indiqué qu’en utilisant le système logiciel Dynamo, Nvidia confie la phase de « pré-remplissage » (Pre-fill) et de « décodage » (attention) à Vera Rubin, tandis que la phase de « décode » (génération de tokens) très sensible à la latence est confiée à Groq. Il a également conseillé aux entreprises comment répartir leur puissance de calcul :

Si votre travail consiste principalement à traiter un volume élevé de tokens, utilisez 100 % Vera Rubin ; si vous avez besoin de générer beaucoup de tokens de haute valeur, consacrez 25 % de votre centre de données à Groq.

Selon des sources, la puce LP30 de Groq, fabriquée par Samsung, est déjà en production de masse, avec une livraison prévue pour le troisième trimestre, tandis que le premier rack Vera Rubin fonctionne déjà sur le cloud Azure de Microsoft.

Par ailleurs, concernant la technologie de communication optique, Huang a présenté le premier commutateur optique (CPO) Spectrum X en production, apaisant la controverse sur la voie « cuivre vs fibre » :

Nous avons besoin de plus de capacité en câbles en cuivre, en puces optiques, et en CPO.

Agent : la fin du SaaS traditionnel, « salaire annuel + tokens » devient la norme à Silicon Valley

Au-delà du hardware, Huang a consacré beaucoup de temps à la révolution du logiciel IA et de l’écosystème, notamment à l’explosion des Agents (agents intelligents).

Il a qualifié le projet open source OpenClaw de « projet open source le plus populaire de l’histoire humaine », affirmant qu’en quelques semaines, il a dépassé les réalisations de Linux en 30 ans. Huang a déclaré que, fondamentalement, OpenClaw est le « système d’exploitation » des ordinateurs à agents.

Huang a affirmé :

Chaque société SaaS deviendra une société AaaS (Agent-as-a-Service, agents en tant que service). Sans aucun doute, pour assurer la sécurité de ces agents capables d’accéder à des données sensibles et d’exécuter du code, Nvidia a lancé la référence d’entreprise NeMo Claw, intégrant un moteur de stratégie et un routeur de confidentialité.

Pour les employés ordinaires, cette révolution est également imminente. Huang a esquissé la nouvelle forme de travail à l’avenir :

Dans le futur, chaque ingénieur de notre entreprise disposera d’un budget annuel de tokens. Leur salaire de base pourrait atteindre plusieurs dizaines de milliers de dollars, et je leur consacrerai environ la moitié de ce montant en tokens, pour multiplier leur efficacité par 10. La question « combien de tokens dans l’offre d’embauche » est devenue un nouveau critère de recrutement à Silicon Valley : combien de tokens votre offre contient-elle ?

Huang a également « spoilé » la prochaine architecture de calcul, Feynman, qui permettra pour la première fois une extension conjointe du cuivre et du CPO. Plus intriguant encore, Nvidia développe un ordinateur de centre de données spatial, « Vera Rubin Space-1 », qui ouvre la voie à une extension de la puissance de calcul IA au-delà de la Terre.

Discours intégral de Huang Renxun à GTC 2026, traduction complète ci-dessous (avec assistance d’outils IA) :

Présentateur : Bienvenue à la scène, Huang Renxun, fondateur et PDG de Nvidia.

Huang Renxun, fondateur et PDG :

Bienvenue à GTC. Je tiens à rappeler que c’est une conférence technologique. Voir autant de personnes faire la queue dès le matin, et vous voir tous ici, me rend très heureux.

À GTC, nous nous concentrons sur trois thèmes majeurs : la technologie, la plateforme et l’écosystème. Nvidia dispose actuellement de trois grandes plateformes : la plateforme CUDA-X, la plateforme système, et notre toute nouvelle plateforme d’usines d’IA.

Avant de commencer officiellement, je tiens à remercier nos maîtres de la séance d’échauffement — Sarah Guo de Conviction, Alfred Lin de Sequoia Capital (le premier investisseur en capital-risque de Nvidia), et Gavin Baker, notre premier investisseur institutionnel principal. Ces trois personnes ont une vision profonde de la technologie et une influence considérable dans l’écosystème technologique. Bien sûr, je remercie aussi tous les invités que j’ai personnellement invités à assister aujourd’hui. Merci à cette équipe d’étoiles.

Je remercie également toutes les entreprises présentes aujourd’hui. Nvidia est une société plateforme, avec une technologie, une plateforme et un écosystème riches. Les entreprises présentes représentent presque tous les acteurs du secteur de 100 000 milliards de dollars, avec 450 sociétés sponsorisant cet événement, que je tiens à saluer chaleureusement.

Ce congrès comprend 1 000 forums techniques et 2 000 intervenants, couvrant chaque niveau de l’architecture « gâteau à cinq couches » de l’intelligence artificielle — des infrastructures de terrain, d’électricité et de centres de données, jusqu’aux puces, plateformes, modèles, et enfin aux diverses applications qui propulsent l’industrie.

CUDA : vingt ans d’accumulation technologique

Tout commence ici. Cette année marque le 20e anniversaire de CUDA.

Depuis vingt ans, nous nous consacrons au développement de cette architecture. CUDA est une invention révolutionnaire — la technologie SIMT (Single Instruction Multiple Threads) permet aux développeurs d’écrire des programmes en code scalaire, puis de les étendre à des applications multi-thread, avec une complexité de programmation bien inférieure à celle des architectures SIMD précédentes. Récemment, nous avons ajouté la fonction Tiles, facilitant la programmation des Tensor Cores, et toutes sortes de structures mathématiques essentielles à l’IA moderne. Aujourd’hui, CUDA dispose de milliers d’outils, compilateurs, frameworks et bibliothèques, avec des centaines de milliers de projets open source, profondément intégrés dans chaque écosystème technologique.

Ce graphique révèle la logique stratégique de Nvidia à 100 %. Je l’ai toujours expliqué dans cette présentation. La partie la plus difficile et la plus essentielle est la « capacité installée » en bas du graphique. Après vingt ans, nous avons accumulé des centaines de millions de GPU et de systèmes de calcul fonctionnant sous CUDA dans le monde entier.

Nos GPU couvrent toutes les plateformes cloud, desservant presque tous les fabricants d’ordinateurs et tous les secteurs. La vaste capacité installée de CUDA est la raison pour laquelle cette roue tourne de plus en plus vite. La capacité installée attire les développeurs, qui créent de nouveaux algorithmes et réalisent des percées, ces percées ouvrent de nouveaux marchés, qui créent de nouveaux écosystèmes et attirent davantage d’entreprises, ce qui accroît encore la capacité installée — cette roue tourne et accélère sans cesse.

Le nombre de téléchargements de la bibliothèque Nvidia ne cesse de croître à une vitesse impressionnante, avec une échelle énorme et une croissance continue. Cette roue permet à notre plateforme de calcul de supporter une multitude d’applications et de nouvelles avancées.

Plus important encore, elle confère à ces infrastructures une durée de vie extrêmement longue. La raison est évidente : les applications fonctionnant sur CUDA sont extrêmement riches, couvrant chaque étape du cycle de vie de l’IA, chaque plateforme de traitement de données, ainsi que divers solveurs scientifiques. Dès qu’un GPU Nvidia est installé, sa valeur d’utilisation est très élevée. C’est pourquoi, six ans après la sortie de notre architecture Ampere, le prix dans le cloud a même augmenté.

Tout cela repose sur la capacité installée massive, cette roue qui tourne à plein régime, et un écosystème de développeurs étendu. Quand ces facteurs agissent ensemble, combinés à nos mises à jour logicielles continues, les coûts de calcul diminuent constamment. La puissance de calcul accélérée améliore considérablement la performance des applications, et en maintenant et en améliorant nos logiciels sur le long terme, les utilisateurs bénéficient non seulement d’un saut de performance initial, mais aussi d’une baisse continue des coûts de calcul. Nous sommes prêts à soutenir à long terme chaque GPU dans le monde, car leur architecture est totalement compatible.

Nous faisons cela parce que la capacité installée est si grande — chaque fois que nous optimisons, cela profite à des millions d’utilisateurs. Cette dynamique permet à Nvidia d’étendre constamment sa couverture, de croître rapidement, tout en réduisant les coûts de calcul, stimulant ainsi une nouvelle croissance. CUDA en est le cœur.

De GeForce à CUDA : vingt-cinq ans d’évolution

Notre parcours avec CUDA a en réalité commencé il y a vingt-cinq ans.

GeForce — je pense que beaucoup d’entre vous ont grandi avec GeForce. GeForce est le projet de marketing le plus réussi de Nvidia. Nous avons commencé à former nos futurs clients bien avant qu’ils ne puissent acheter nos produits — ce sont les parents de votre génération qui sont devenus nos premiers utilisateurs, achetant nos produits année après année, jusqu’à ce que vous deveniez des informaticiens exceptionnels, nos véritables clients et développeurs.

C’est grâce à GeForce qu’il y a vingt-cinq ans, nous avons posé les bases. Nous avons inventé le shader programmable — une invention évidente mais profondément significative, qui a permis à l’accélérateur d’être programmable, et c’est la toute première accélération programmable au monde, le pixel shader. Cinq ans plus tard, nous avons créé CUDA — l’un de nos investissements les plus importants. À l’époque, l’entreprise disposait de ressources limitées, mais nous avons mis la majorité de nos profits dans cette initiative, pour étendre CUDA de GeForce à chaque ordinateur. Notre conviction était forte, car nous croyions en son potentiel. Malgré les difficultés initiales, nous avons maintenu cette foi pendant 13 générations, vingt ans, et aujourd’hui, CUDA est omniprésent.

Ce sont les pixel shaders qui ont déclenché la révolution GeForce. Et il y a environ huit ans, nous avons lancé RTX — une refonte complète de l’architecture pour l’ère moderne de la visualisation informatique. GeForce a permis de diffuser CUDA dans le monde entier, ce qui a permis à des chercheurs comme Alex Krizhevsky, Ilya Sutskever, Geoffrey Hinton, Andrew Ng, et bien d’autres, de découvrir que le GPU pouvait devenir un outil puissant pour accélérer l’apprentissage profond, déclenchant ainsi la grande explosion de l’IA il y a dix ans.

Il y a dix ans, nous avons décidé de fusionner le shader programmable avec deux idées totalement nouvelles : d’une part, le ray tracing matériel (Ray Tracing), une technologie très difficile ; d’autre part, une idée avant-gardiste à l’époque — il y a environ dix ans, nous avions prévu que l’IA allait transformer radicalement la visualisation informatique. Comme GeForce a apporté l’IA au monde entier, l’IA va aujourd’hui à son tour remodeler la façon dont la visualisation informatique est réalisée.

Aujourd’hui, je vais vous présenter l’avenir. C’est notre prochaine génération de technologie graphique, que nous appelons Neural Rendering — une fusion profonde entre la 3D et l’intelligence artificielle. Voici DLSS 5, regardez.

La neural rendering : la fusion des données structurées et de l’IA générative

N’est-ce pas époustouflant ? La visualisation informatique renaît.

Qu’avons-nous fait ? Nous avons combiné la 3D contrôlable (la base de la réalité virtuelle) et ses données structurées, puis intégré l’IA générative et le calcul probabiliste. L’un est déterministe, l’autre probabiliste mais très réaliste — nous avons fusionné ces deux concepts, en utilisant les données structurées pour une précision contrôlable, tout en générant en temps réel.

Au final, le contenu est à la fois magnifique, impressionnant, et entièrement contrôlable.

L’intégration des données structurées et de l’IA générative, cette idée, se reproduira dans de nombreux secteurs. Les données structurées sont la base d’une IA fiable.

Plateforme d’accélération pour données structurées et non structurées

Je vais maintenant vous montrer un schéma d’architecture technologique.

Les données structurées — que vous connaissez sous le nom de SQL, Spark, Pandas, Velox, ainsi que des plateformes importantes comme Snowflake, Databricks, Amazon EMR, Azure Fabric, Google BigQuery — traitent toutes des Data Frames. Ces Data Frames ressemblent à d’immenses tableurs, contenant toutes les informations du monde des affaires, et constituent la vérité fondamentale (Ground Truth) pour l’entreprise.

À l’ère de l’IA, nous devons faire en sorte que l’IA utilise ces données structurées, avec une accélération extrême. Autrefois, accélérer le traitement des données structurées visait à rendre l’entreprise plus efficace. À l’avenir, l’IA utilisera ces structures à une vitesse bien supérieure à celle de l’humain, et les agents IA invoqueront massivement ces bases de données structurées.

Concernant les données non structurées, elles comprennent les bases de données vectorielles, PDF, vidéos, audios — représentant la majorité des données mondiales. Chaque année, environ 90 % des données générées sont non structurées. Autrefois, ces données étaient presque inutilisables : on les lisait, on les stockait dans des systèmes de fichiers, et c’était tout. Impossible de faire des requêtes ou des recherches efficaces, car ces données manquent d’indexation simple, il faut comprendre leur sens et leur contexte. Mais maintenant, grâce à l’IA, c’est possible — en utilisant la perception multimodale et la compréhension, l’IA peut lire un document PDF, en comprendre le sens, puis l’intégrer dans une structure plus grande, exploitable pour la recherche.

Nvidia a créé deux bibliothèques fondamentales pour cela :

  • cuDF : pour le traitement accéléré des Data Frames et des données structurées
  • cuVS : pour le stockage vectoriel, la sémantique, et le traitement des données IA non structurées

Ces deux plateformes deviendront parmi les plus importantes de l’avenir.

Aujourd’hui, nous annonçons des collaborations avec plusieurs entreprises. IBM — inventeur du langage SQL — utilisera cuDF pour accélérer sa plateforme WatsonX Data. Dell a co-développé avec nous la plateforme de données IA Dell, intégrant cuDF et cuVS, avec des gains de performance importants dans des projets concrets chez NTT Data. Google Cloud, pour sa part, accélère non seulement Vertex AI, mais aussi BigQuery, et a collaboré avec Snapchat pour réduire ses coûts de calcul de près de 80 %.

Les bénéfices du calcul accéléré sont triples : vitesse, échelle, coût. Cela s’inscrit dans la logique de la loi de Moore — en accélérant le calcul, on réalise des progrès de performance, tout en optimisant en permanence les algorithmes, ce qui permet à tous de bénéficier d’une baisse continue des coûts.

Nvidia a construit une plateforme de calcul accéléré, intégrant de nombreuses bibliothèques : RTX, cuDF, cuVS, etc. Ces bibliothèques sont intégrées dans les services cloud mondiaux et dans les systèmes OEM, pour toucher un maximum d’utilisateurs.

Collaboration approfondie avec les fournisseurs de cloud

Partenariats avec les principaux fournisseurs de cloud

Google Cloud : nous accélérons Vertex AI et BigQuery, intégrant profondément JAX/XLA, tout en excellant sur PyTorch — Nvidia est le seul accélérateur à performer aussi bien sur PyTorch que sur JAX/XLA. Nous avons intégré des clients comme Base10, CrowdStrike, Puma, Salesforce dans l’écosystème Google Cloud.

AWS : nous accélérons EMR, SageMaker et Bedrock, avec une intégration profonde avec AWS. Cette année, je suis particulièrement enthousiaste : nous allons introduire OpenAI dans AWS, ce qui stimulera considérablement la consommation de cloud AWS, et aidera OpenAI à étendre ses déploiements régionaux et sa capacité de calcul.

Microsoft Azure : le supercalculateur Nvidia de 100 PFLOPS est notre premier supercalculateur déployé sur Azure, établissant une base solide pour notre collaboration avec OpenAI. Nous accélérons les services cloud Azure et la plateforme AI Foundry, en soutenant l’expansion régionale d’Azure, et en collaborant étroitement avec Bing. Notre capacité de calcul confidentiel (Confidential Computing) — garantissant que même l’opérateur ne peut pas voir les données ou modèles des utilisateurs — est supportée par les GPU Nvidia, parmi les premiers au monde à prendre en charge cette technologie, permettant le déploiement confidentiel des modèles OpenAI et Anthropic dans divers environnements cloud. Par exemple, nous accélérons tous les flux EDA et CAD de Synopsys, déployés sur Microsoft Azure.

Oracle : nous sommes le premier client IA d’Oracle, et je suis fier d’avoir été le premier à leur expliquer le concept de cloud IA. Depuis, leur croissance est fulgurante, et nous leur avons fourni des partenaires comme Cohere, Fireworks, OpenAI.

CoreWeave : premier cloud natif IA au monde, spécialisé dans l’hébergement GPU et les services cloud IA, avec une clientèle exceptionnelle et une croissance dynamique.

Palantir + Dell : nous avons co-créé une nouvelle plateforme IA, basée sur la plateforme ontologique de Palantir (Ontology Platform) et la plateforme IA, permettant le déploiement localisé dans n’importe quel pays, dans des environnements isolés, avec une intégration complète du traitement de données (vectorisation ou structuration) jusqu’à la chaîne de calcul IA.

Nvidia a établi ce type de partenariat unique avec les grands fournisseurs de cloud — en amenant ses clients dans le cloud, créant ainsi un écosystème mutuellement bénéfique.

Intégration verticale, ouverture horizontale : la stratégie centrale de Nvidia

Nvidia est la première entreprise au monde à combiner intégration verticale et ouverture horizontale.

Ce modèle est très simple : le calcul accéléré n’est pas une question de puces ou de systèmes, mais d’application. Les CPU permettent à l’ordinateur de fonctionner plus vite, mais cette voie a atteint ses limites. À l’avenir, seul le calcul spécifique à une application ou à un domaine pourra continuer à produire des progrès en performance et en coûts.

C’est pourquoi Nvidia doit approfondir chaque bibliothèque, chaque secteur, chaque industrie verticale. Nous sommes une société de calcul intégrée verticalement, il n’y a pas d’autre voie. Nous devons comprendre les applications, comprendre les domaines, maîtriser les algorithmes, et pouvoir déployer dans tous les scénarios — datacenters, cloud, local, edge, robots.

En même temps, Nvidia reste ouvert horizontalement, prêt à intégrer sa technologie dans la plateforme de tout partenaire, pour que le monde entier profite des bénéfices du calcul accéléré.

La participation à GTC illustre parfaitement cette stratégie. La majorité des participants viennent du secteur financier — ce ne sont pas des traders, mais des développeurs. Notre écosystème couvre toute la chaîne d’approvisionnement, en amont comme en aval. Qu’il s’agisse d’entreprises fondées il y a 50, 70 ou 150 ans, toutes ont connu leur meilleur année l’an dernier. Nous sommes au début d’un changement très, très important.

CUDA-X : le moteur d’accélération pour tous les secteurs

Dans chaque secteur vertical, Nvidia a déjà une présence profonde :

  • Véhicules autonomes : couverture étendue, impact profond
  • Services financiers : l’investissement quantitatif passe de l’ingénierie manuelle à l’apprentissage profond piloté par super-ordinateurs, avec l’avènement du « moment Transformer »
  • Santé : le « moment ChatGPT » arrive, avec l’IA pour la découverte de médicaments, le diagnostic assisté par IA, le support client médical, etc.
  • Industrie : une vague de construction mondiale se déploie, avec des usines d’IA, des usines de puces, des data centers
  • Divertissement et jeux : plateforme IA en temps réel pour la traduction, la diffusion en direct, l’interaction dans les jeux, et les agents d’achat intelligents
  • Robotique : plus de dix ans d’expérience, avec trois architectures informatiques (calcul d’entraînement, simulation, embarqué), 110 robots présentés lors de cette conférence
  • Télécommunications : secteur d’environ 2 000 milliards de dollars, avec des stations de base évoluant d’un simple nœud de communication à une plateforme d’infrastructure IA, nommée Aerial, en partenariat avec Nokia, T-Mobile, etc.

Tous ces domaines reposent sur la bibliothèque CUDA-X — la pierre angulaire de Nvidia en tant qu’entreprise d’algorithmes. Ces bibliothèques sont ses actifs fondamentaux, permettant à la plateforme de calcul de produire une valeur concrète dans chaque secteur.

Parmi elles, la plus importante est cuDNN (CUDA Deep Neural Network library), qui a révolutionné l’IA et déclenché la boom de l’IA moderne.

Tout ce que vous avez vu jusqu’ici est une simulation — y compris les solveurs physiques, les modèles physiques d’agents IA, et les modèles de robots physiques. Tout est simulé, sans animation manuelle ni articulation. C’est la capacité centrale de Nvidia : en combinant une compréhension profonde des algorithmes et une plateforme de calcul organique, déverrouiller ces opportunités.

Entreprises natives IA et nouvelle ère du calcul

Vous avez vu des géants comme Walmart, L’Oréal, JPMorgan, Roche, Toyota, et d’autres entreprises qui façonnent la société d’aujourd’hui, mais aussi une multitude d’entreprises dont vous n’avez probablement jamais entendu parler — que nous appelons des entreprises IA natives. La liste est très longue, comprenant OpenAI, Anthropic, et de nombreuses startups dans divers secteurs verticaux.

Au cours des deux dernières années, ce secteur a connu une croissance spectaculaire. Les investissements en capital-risque dans les startups ont atteint 150 milliards de dollars, un record historique. Plus important encore, la taille des investissements a dépassé pour la première fois quelques millions de dollars, atteignant des centaines de millions, voire plusieurs milliards de dollars par opération. La raison est simple : c’est la première fois dans l’histoire que chaque entreprise de ce type a besoin de vastes ressources de calcul et de tokens. Ce secteur crée, génère, ou valorise des tokens issus d’organisations comme Anthropic, OpenAI, etc.

Comme la révolution PC, la révolution Internet, et la révolution mobile ont engendré des entreprises emblématiques, cette nouvelle plateforme de calcul donnera également naissance à des entreprises influentes, qui deviendront des acteurs majeurs du futur.

Les trois percées historiques qui propulsent tout cela

Que s’est-il passé ces deux dernières années ? Trois événements majeurs.

Premier : ChatGPT, le début de l’ère de l’IA générative (fin 2022 à 2023)

Il ne se contente pas de percevoir et comprendre, il peut aussi générer du contenu unique. J’ai montré la fusion entre IA générative et visualisation informatique. L’IA générative a fondamentalement changé la façon dont on calcule — le calcul est passé de la recherche à la génération, ce qui influence profondément l’architecture, le déploiement, et la signification globale.

Deuxième : l’IA de déduction (Reasoning AI), représentée par o1

La capacité de déduction permet à l’IA de s’auto-réfléchir, de planifier, de décomposer les problèmes — de transformer une question incompréhensible en étapes traitables. o1 rend l’IA générative crédible, capable de raisonner sur des informations réelles. Pour cela, la quantité de tokens d’entrée (context) et de sortie (pensée) augmente considérablement, avec une consommation de calcul accrue.

Troisième : Claude Code, le premier modèle d’agent intelligent

Il peut lire des fichiers, écrire du code, compiler, tester, évaluer et itérer. Claude Code révolutionne l’ingénierie logicielle — tous nos ingénieurs utilisent au moins une de ces technologies : Claude Code, Codex, ou Cursor. Aucun ingénieur logiciel ne travaille sans IA.

C’est un tournant : au lieu de demander à l’IA « qu’est-ce que c’est, où c’est, comment faire », on lui demande de « créer, exécuter, construire », de prendre l’initiative d’utiliser des outils, de lire des fichiers, de décomposer des problèmes, et d’agir. L’IA passe de la perception à la génération, puis à la déduction, et enfin à la capacité réelle d’accomplir des tâches.

Au cours des deux dernières années, la quantité de calcul nécessaire pour la déduction a été multipliée par environ 10 000, et l’utilisation par environ 100. Je pense que la demande en calcul a augmenté d’un facteur 1 000 000 — c’est une expérience partagée par tous, par OpenAI, par Anthropic. Plus on a de puissance, plus on peut générer de tokens, plus les revenus augmentent, et plus l’IA devient intelligente. Le tournant de la déduction est là.

L’ère de l’infrastructure IA d’un billion de dollars

L’année dernière, je disais ici que nous avions une grande confiance dans la demande et les commandes de Blackwell et Rubin avant 2026, estimant leur valeur à 500 milliards de dollars. Aujourd’hui, un an plus tard, je vous dis : d’ici 2027, je vois ce chiffre au moins atteindre 1 000 milliards de dollars. Et je suis convaincu que la demande réelle sera bien plus élevée.

2025 : l’année de la déduction chez Nvidia

2025 sera l’année de la déduction chez Nvidia. Nous voulons garantir que, au-delà de la formation et de l’après-formation, nous maintenons une excellence à chaque étape du cycle de vie de l’IA, pour que l’infrastructure investie continue à fonctionner efficacement, avec une durée de vie utile plus longue et un coût unitaire plus faible.

Par ailleurs, Anthropic et Meta ont rejoint la plateforme Nvidia, représentant ensemble un tiers de la demande mondiale en puissance de calcul IA. Les modèles open source approchent le niveau de pointe, et sont omniprésents.

Nvidia est aujourd’hui la seule plateforme capable de faire fonctionner tous les modèles IA — en langage, biologie, visualisation, vision par ordinateur, voix, protéines, chimie, robotique — dans tous les environnements, du edge au cloud, dans toutes les langues. La plateforme Nvidia est universelle pour tous ces scénarios, ce qui en fait la plateforme la moins coûteuse et la plus fiable.

Actuellement, 60 % de nos activités proviennent des cinq plus grands fournisseurs de cloud massif dans le monde, et 40 % sont répartis dans le cloud régional, le cloud souverain, l’entreprise, l’industrie, la robotique, le edge computing. La portée de l’IA est sa résilience — c’est une révolution totale des plateformes de calcul.

Grace Blackwell et NVLink 72 : une révolution architecturale audacieuse

Alors que l’architecture Hopper était à son apogée, nous avons décidé de tout repenser, en étendant NVLink de 8 à 72 voies, pour une refonte complète du système. Grace Blackwell NVLink 72 représente un pari technologique énorme, difficile pour tous nos partenaires, et je tiens à remercier sincèrement chacun d’eux.

Parallèlement, nous avons lancé NVFP4 — pas un simple FP4, mais une toute nouvelle catégorie de tensor cores et d’unités de calcul. Nous avons déjà prouvé que NVFP4 peut faire de l’inférence sans perte de précision, tout en offrant des gains de performance et d’efficacité énergétique considérables, et cela aussi pour la formation. De plus, une série de nouveaux algorithmes, comme Dynamo et TensorRT-LLM, ont été dévoilés. Nous avons même construit un supercalculateur dédié à l’optimisation des noyaux, appelé DGX Cloud, pour accélérer ces développements.

Les résultats sont impressionnants : selon Semi Analysis — la référence la plus complète en matière de performance d’inférence IA — Nvidia domine en termes de tokens par watt et de coût par token. Alors que la loi de Moore aurait permis une amélioration de 1,5 fois avec H200, nous avons réalisé un bond de 35 fois. Dylan Patel, de Semi Analysis, a même dit : « Jensen a été conservateur, c’est en réalité 50 fois. » Et il a raison.

Je cite : « Jensen a sandbaggé (a été conservateur). »

Le coût par token chez Nvidia est aujourd’hui le plus bas au monde, sans aucun concurrent. La raison ? Une conception extrême en co-design.

Prenons Fireworks, par exemple : avant la mise à jour logicielle et algorithmique Nvidia, la vitesse moyenne était d’environ 700 tokens/sec ; après, elle approche 5 000 tokens/sec, soit une amélioration de 7 fois. C’est la puissance du co-design extrême.

L’usine à tokens : du centre de données à l’usine de tokens

Le centre de données n’est plus un simple lieu de stockage, mais une usine de tokens. Chaque fournisseur cloud, chaque entreprise IA, utilisera à l’avenir « l’efficacité de l’usine de tokens » comme indicateur clé de performance.

Voici mon argument principal :

  • Axe vertical : débit (Throughput) — tokens générés par seconde sous puissance fixe
  • Axe horizontal : vitesse d’interaction (Token Speed) — temps de réponse par inférence, plus c’est rapide, plus le modèle peut être grand, avec un contexte plus long, et plus l’IA sera intelligente

Les tokens deviennent une nouvelle marchandise de grande ampleur, avec une tarification hiérarchisée :

  • Niveau gratuit (haute capacité, faible vitesse)
  • Niveau intermédiaire (~3 dollars par million de tokens)
  • Niveau avancé (~6 dollars par million de tokens)
  • Niveau ultra-rapide (~45 dollars par million de tokens)
  • Niveau hyper-rapide (~150 dollars par million de tokens)

Comparé à Hopper, Grace Blackwell a multiplié par 35 la capacité de traitement dans le niveau de valeur maximale, et introduit de nouveaux niveaux. En estimant simplement, en répartissant 25 % de puissance à chaque niveau, Grace Blackwell peut générer cinq fois plus de revenus que Hopper.

Vera Rubin : la prochaine génération de système de calcul IA

Vera Rubin est un système complet, optimisé de bout en bout, conçu pour les charges de travail d’agents (Agentic) :

  • Cœur de calcul pour grands modèles de langage : cluster de GPU NVLink 72, pour le pré-remplissage (Pre-fill) et le cache KV
  • CPU Vera : conçu pour une performance monocœur extrême, avec mémoire LPDDR5, la seule CPU de centre de données utilisant cette mémoire, idéale pour invoquer des outils d’agents IA
  • Système de stockage : BlueField 4 + CX 9, nouvelle plateforme de stockage pour l’ère IA, adoptée à 100 % par l’industrie du stockage mondiale
  • Commutateur Spectrum X CPO : premier commutateur optique en boîtier partagé, en production de masse
  • Rack Kyber : nouveau système supportant 144 GPU dans un seul domaine NVLink, avec calcul en front-end et échange NVLink en back-end, formant un superordinateur géant
  • Rubin Ultra : nouvelle génération de nœuds supercalculateurs, à architecture verticale, avec une conception modulaire, pour supporter une connectivité NVLink encore plus grande

Vera Rubin est entièrement refroidi par liquide, avec une installation réduite de deux jours à deux heures, utilisant de l’eau chaude à 45°C pour réduire la charge de refroidissement des data centers. Satya Nadella a confirmé que la première unité Vera Rubin est en service sur Azure, ce qui me remplit de fierté.

Intégration de Groq : l’extension ultime des performances d’inférence

Nous avons acquis l’équipe Groq et obtenu sa licence technologique. Groq est un processeur de flux de données déterministe (Deterministic Dataflow Processor), utilisant la compilation statique et la planification par compilateur, avec une grande SRAM, optimisé pour une charge de travail unique d’inférence, avec une latence très faible et une vitesse de génération de tokens très élevée.

Cependant, la capacité mémoire de Groq est limitée (500 Mo de SRAM

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler