Huang Renxun façonne l'« économie des tokens » : NVIDIA adopte l'ère des agents intelligents

K-LinePoet · 2026-04-01T22:21:36+00:00

3月17日凌晨，被誉为AI“超级碗”与AI“春晚”的英伟达GTC开幕，“AI教主”、英伟达创始人兼CEO黄仁勋再次站在舞台中央，用一场技术风暴刷新着物理极限。英伟达宣布，Vera Rubin（最新芯片架构）目前已有七款新芯片全面投入生产，Vera Rubin平台正在开启 Agentic AI新时代，构建全球最大的AI工厂。具体而言，这些芯片产品包括：NVIDIA Vera CPU（英伟达已进军服务器CPU），NVIDIA Rubin GPU（GPU王牌产品），NVIDIA NVLink 6（第六代NVLink交换机芯片，芯片内部互联），NVIDIA

K-LinePoet

2026-04-01 22:21:36

Le 17 mars, à l’aube, l’ouverture de la conférence GTC de NVIDIA — surnommée le « Super Bowl » de l’IA et le « Gala du Nouvel An chinois » de l’IA — a vu de nouveau Huang Renxun, « le maître de l’IA », cofondateur de NVIDIA et PDG, se placer au centre de la scène, avec une tempête technologique qui repousse les limites physiques.

NVIDIA a annoncé que Vera Rubin (la dernière architecture de puces) compte actuellement sept nouvelles puces, toutes déjà engagées en production à grande échelle. La plateforme Vera Rubin ouvre l’ère de l’IA agentique (Agentic AI), et vise à bâtir la plus grande « usine à IA » du monde.

Concrètement, ces produits de puces incluent : NVIDIA Vera CPU (NVIDIA s’étant déjà lancée dans les CPU pour serveurs), NVIDIA Rubin GPU (produit phare des GPU), NVIDIA NVLink 6 (puce d’interconnexion NVLink de sixième génération, interconnexions internes à la puce), NVIDIA ConnectX-9 SuperNIC (SuperNIC), NVIDIA BlueField-4 DPU (puce pour le stockage), NVIDIA Spectrum-6 (puce de commutation Ethernet, prenant en charge la technologie CPO), ainsi qu’une nouvelle puce intégrée, NVIDIA Groq 3 LPU (première puce depuis l’acquisition de Groq).

On peut le constater : au sein de la famille de puces, il n’y a pas seulement les produits CPU et GPU que tout le monde connaît habituellement, mais aussi des LPU en provenance de Groq, ainsi que toute une gamme de produits incluant des puces de stockage et des puces de commutation. Ces puces peuvent ensuite composer 5 systèmes en rack, afin de fonctionner dans les centres de données.

« Vera Rubin constitue un saut générationnel : sept puces révolutionnaires, cinq racks, un gigantesque superordinateur — afin d’alimenter chaque étape de l’IA », a déclaré Huang Renxun. « Avec le lancement de Vera Rubin, le point d’inflexion de l’IA agentique est déjà arrivé, et il ouvrira le plus grand chantier de construction d’infrastructures de l’histoire. »

Pendant son discours, Huang Renxun a également prédit que, d’ici la fin de 2027, les revenus des puces d’IA Blackwell et Rubin atteindront 1 000 milliards de dollars. Par rapport aux 500 milliards de dollars de prévisions de ventes en octobre de l’année dernière, cela représente déjà un doublement.

Cette conférence de lancement peut être qualifiée de « sans précédent ». Ce n’est pas seulement des GPU, et ce n’est pas non plus une simple mise à niveau d’une seule technologie. Huang Renxun a de nouveau souligné l’économie des « Token » et a appliqué la théorie du « gâteau à cinq couches » de l’IA.

Une tendance consiste à ce que les grands acteurs rassemblent continuellement des capacités, comblent leurs lacunes, s’étendent en amont et en aval, et forment ainsi des remparts encore plus solides. L’ère des duels isolés — portant uniquement sur des puces, des performances, ou d’autres aspects — est révolue. Une compétition intense et à l’échelle du système se joue désormais sur tous les fronts.

Révolution totale de Vera Rubin : de la puce unique à l’ère du système

En tant que relais multi-génération pour Blackwell, NVIDIA prévoit de produire en volume l’architecture Rubin (R100) au second semestre 2026. Sur la couche fondamentale du cœur, cette architecture bascule intégralement sur le procédé TSMC 3 nm (N3P). Sa légendaire Vera CPU (basée sur l’architecture Olympus, développée en interne, à 88 cœurs) et son Rubin GPU réalisent une intégration véritablement « en même emballage », via la technologie NVLink-C2C de 1,8 TB/s.

Cette conception « dé-PClE » — un couplage étroit — fait que la puissance de calcul n’est plus limitée par des liaisons traditionnelles. En précision NVFP4, la puissance d’inférence d’un GPU passe à 50 PFlops, et la puissance d’entraînement atteint 35 PFlops. À grande échelle, l’efficacité énergétique de l’inférence dépasse Blackwell d’au moins 5 fois.

Du point de vue des cas d’usage, Rubin a été conçu spécifiquement pour la « IA agentique (Agentic AI) » et l’inférence sur longs contextes : c’est le cœur d’une usine numérique. Il intègre Transformer Engine 3.0, la plateforme Inference Context Memory, et décharge la gestion du stockage grâce au BlueField-4 DPU. Cela permet aux agents d’IA de traiter des dizaines de milliers de Tokens dans leur contexte, de réaliser un raisonnement logique en plusieurs étapes, et de prendre des décisions en temps réel. La plateforme est équipée d’un réseau Spectrum-X Ethernet Photonics prenant en charge la technologie silicium-photonique (CPO). La bande passante totale d’interconnexion à l’intérieur d’un rack NVL72 atteint 260 TB/s, plusieurs fois la capacité totale de bande passante transfrontalière de l’Internet mondial.

NVIDIA a également lancé le rack Vera CPU : basé sur l’infrastructure haute densité de refroidissement liquide de l’écosystème MGX, il intègre 256 Vera CPU pour offrir une capacité extensible, économe en énergie, avec des performances mono-thread de classe mondiale. Avec les racks GPU, ils fournissent une base CPU pour l’Agentic AI à grande échelle et l’apprentissage par renforcement. L’efficacité de Vera est le double de celle des CPU traditionnels, et sa vitesse augmente de 50 %.

Actuellement, les clients déployant Vera CPU avec NVIDIA incluent Alibaba, ByteDance, Meta, Oracle Cloud Infrastructure, ainsi que CoreWeave, Lambda, Nebius et Nscale. Vera est déjà en production à grande échelle et sera livrée dans le second semestre de cette année.

Les centres de données traditionnels et l’infrastructure d’IA sont confrontés à de nouveaux changements. Huang Renxun a déclaré : « À l’ère de l’IA, les Tokens intelligents sont la nouvelle monnaie, et l’usine à IA est l’infrastructure qui génère ces Tokens. Grâce au design de référence Vera Rubin DSX AI Factory et au Blueprint Omniverse DSX (jumeau numérique), nous fournissons les bases pour construire des usines à IA à la productivité la plus élevée au monde, accélérer le moment de la première recette, et maximiser l’échelle ainsi que l’efficacité énergétique. »

Puces d’inférence Groq LPU : construire un empire hybride de puissance de calcul avec les GPU

Regardons maintenant les puces Groq très attendues.

À la fin de 2025, grâce à une licence stratégique de 20 milliards de dollars et à une intégration en profondeur, NVIDIA a conçu l’architecture Groq LPU (Language Processing Unit), véritable « avion d’interception supersonique » chargé de traquer la latence avec précision et d’ouvrir l’ère des interactions en temps réel.

NVIDIA indique que le lancement de Groq 3 LPX (en rack) marque une étape clé dans le calcul accéléré. Le rack LPX comprend 256 processeurs LPU, avec 128 GB de SRAM sur puce et une bande passante d’extension de 640 TB/s. Lorsqu’il est déployé avec Vera Rubin NVL72, Rubin GPU et LPU améliorent la vitesse de décodage en calculant ensemble chaque couche du modèle d’IA, fournissant ainsi le calcul pour chaque Token de sortie.

En parallèle, le LPX adopte un design entièrement refroidi par liquide et s’appuie sur l’infrastructure MGX. Il s’intègre sans couture à la prochaine usine à IA Vera Rubin, et sera fourni au second semestre de cette année.

En entrant dans l’ère de l’inférence, NVIDIA, au-delà des GPU, fusionne une nouvelle architecture pour accroître fortement l’efficacité.

Sur le plan de l’architecture technique, la Groq LPU abandonne les conceptions « spéculatives » des GPU traditionnels, telles que la gestion complexe des caches, la prédiction de branchement et le réordonnancement des instructions. À la place, elle adopte une architecture de pipeline déterministe. Cette conception réduit totalement la complexité matérielle au niveau du compilateur : les données circulent à l’intérieur de la puce comme sur un tapis roulant de précision, sans aucun jitter incontrôlable (Jitter).

Dans les scénarios d’application en conditions réelles, le rack LPX, bénéficiant de l’appui technologique de NVIDIA, devient la seule bouée de sauvetage pour la « IA agentique (Agentic AI) » et les « interactions vocales en temps réel ». Dans les systèmes d’aide à la conduite autonome ou les robots de trading à haute fréquence, n’importe quelle fluctuation de calcul à l’échelle de la milliseconde peut faire échouer la décision. La capacité de calcul déterministe du LPU garantit que le temps d’exécution de la tâche reste toujours constant.

Pour les chaînes d’agents complexes nécessitant un raisonnement en plusieurs étapes, voire impliquant des centaines d’appels à des modèles, la LPU peut réduire une « réflexion en chaîne » qui prenait auparavant plusieurs minutes à quelques secondes, permettant ainsi à l’IA de mener des conversations et une collaboration naturelles, fluides et en temps réel, comme un humain. Pour prendre en charge ce nouveau paradigme de calcul, NVIDIA intègre de manière transparente l’unité LPU dans son immense écosystème CUDA grâce à la technologie NVFusion. Via une architecture désagrégée (dé-couplée), les poids entraînés sont rapidement dispatchés depuis les GPU vers le tableau d’inférence de la LPU.

Avec cette capacité, NVIDIA sépare l’entraînement et l’inférence et construit un empire hybride de puissance de calcul : les GPU se concentrent en arrière-plan sur l’entraînement de modèles à plusieurs milliards ou billions de paramètres et sur le prétraitement de longs textes, tandis que le tableau de LPU, en première ligne, domine le marché de l’inférence temps réel à l’échelle du billion, avec un ratio efficacité énergétique 10 fois supérieur à celui des adversaires et une réponse ultra-rapide. C’est la déclaration officielle de l’arrivée de l’ère du « rendu instantané de l’inférence ».

Le « homard » version NVIDIA fait son apparition : embrasser l’ère des agents

Dans le même temps, NVIDIA publie une série d’avancées importantes autour des agents d’IA (Agent), des modèles ouverts et des applications intersectorielles. La sortie la plus regardée par les développeurs est le stack logiciel NemoClaw, destiné à la communauté OpenClaw. Récemment, le projet open source OpenClaw a rapidement gagné en popularité au sein de la communauté des développeurs, et de nombreux acteurs du secteur le considèrent comme une ébauche de « système d’exploitation personnel pour l’IA ».

Huang Renxun a également fait l’éloge d’OpenClaw. « OpenClaw ouvre à tous le prochain front de l’IA, et est devenu le projet open source à la croissance la plus rapide de l’histoire », a déclaré Huang Renxun. « Contrairement aux applications d’IA traditionnelles, l’objectif d’OpenClaw est de permettre aux agents d’IA de fonctionner en continu comme des applications : ils peuvent planifier de manière autonome les tâches, appeler des outils et accomplir des workflows complexes. »

Dans ce cadre, NemoClaw fournit tout un ensemble de capacités logicielles de base, permettant aux développeurs d’installer le modèle NVIDIA Nemotron et le nouvel environnement d’exécution OpenShell via une seule commande, tout en ajoutant aux agents d’IA des capacités de contrôle de la sécurité et de la confidentialité. Grâce à l’environnement de bac à sable isolé fourni par OpenShell, les agents d’IA peuvent respecter des politiques de sécurité et des règles de confidentialité établies lors de l’accès aux outils et aux données. Ainsi, tout en améliorant l’efficacité, les données restent protégées.

NemoClaw prend aussi en charge les appels hybrides de modèles locaux et de modèles basés sur le cloud. Les développeurs peuvent exécuter le modèle Nemotron sur les équipements dédiés des utilisateurs, tout en accédant via un routage de confidentialité aux modèles de pointe du cloud. De cette façon, tout en préservant la confidentialité des données, ils obtiennent une capacité de calcul plus puissante. NVIDIA indique que NemoClaw peut fonctionner sur plusieurs types de plateformes de calcul dédiées, notamment des PC et ordinateurs portables équipés de cartes graphiques GeForce RTX, des stations de travail RTX PRO, ainsi que les systèmes DGX Station et DGX Spark, afin de fournir une puissance de calcul stable aux agents d’IA tournant 24h/24 et 7j/7.

En parallèle du développement de la plateforme d’agents d’IA, NVIDIA accélère aussi la construction d’un écosystème de modèles ouverts. Lors de cette conférence, NVIDIA a annoncé la création de Nemotron Coalition (Nemotron Alliance), rassemblant de nombreuses institutions et laboratoires d’IA leaders dans le monde, ainsi que des organismes de développement de modèles, afin de promouvoir conjointement le développement de modèles de pointe ouverts.

En plus des collaborations au niveau de l’écosystème, NVIDIA étend également simultanément plusieurs lignes de produits de modèles ouverts pour soutenir le développement dans différents domaines, tels que les agents d’IA, l’intelligence physique et la recherche biomédicale. Parmi eux, les modèles de la série NVIDIA Nemotron 3 renforcent davantage la compréhension multimodale, et proposent plusieurs versions, notamment Ultra, Omni et VoiceChat. Ces modèles peuvent traiter simultanément des informations de langage, de vision et de voix : ainsi, les agents d’IA peuvent non seulement dialoguer naturellement, mais aussi accomplir des tâches d’inférence complexes, et extraire les informations clés à partir de diverses sources de données, comme la vidéo et les documents.

Au-delà des agents d’IA dans le monde numérique, NVIDIA pousse aussi l’intelligence artificielle vers le monde réel. Les nouveaux modèles publiés incluent plusieurs modèles de base destinés aux robots et aux systèmes de conduite autonome. Par exemple, NVIDIA Isaac GR00T N1.7 est un modèle visuel-linguistique d’action orienté vers les robots de type humanoïde, capable de soutenir la perception, le raisonnement et les décisions d’action des robots dans des environnements réels.

NVIDIA Alpamayo 1.5 vise quant à lui les scénarios de conduite autonome : grâce à des indications de navigation, la prise en charge de multi-caméras et des paramètres de caméras configurables, il améliore les capacités de raisonnement du véhicule. Quant à NVIDIA Cosmos 3, qui sera bientôt lancé, il est présenté comme le premier modèle de base unifié pour la « génération du monde, le raisonnement physique et la simulation d’actions ». Il devrait aider les robots et les systèmes de conduite autonome à s’entraîner et à prendre des décisions dans des environnements complexes.

Du modèle de plateforme d’agents d’IA à l’écosystème de modèles ouverts, puis aux domaines d’application tels que la robotique, la conduite autonome et les sciences de la vie, NVIDIA construit progressivement un système de technologies d’IA couvrant à la fois le monde numérique et le monde physique. À mesure que davantage de développeurs et d’entreprises rejoignent l’écosystème des modèles ouverts et des agents d’IA, ce système pourrait également stimuler davantage l’innovation et le déploiement de l’intelligence artificielle à l’échelle mondiale.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

1 J'aime