Huit annonces majeures en 1,5 heures : Vera Rubin de NVIDIA annonce une nouvelle ère pour l'inférence IA

2026-01-28 13:15:42

Lors du CES 2026 à Las Vegas le 5 janvier, le PDG de NVIDIA Jensen Huang a prononcé une allocution phare qui a condensé huit annonces majeures en seulement 1,5 heure, marquant un changement décisif dans l’orientation de l’industrie, passant de la formation de modèles d’IA à l’inférence à grande échelle et à coût réduit. La présentation a dévoilé une architecture complète couvrant le silicium personnalisé, la conception de systèmes, les logiciels open-source et les applications robotiques — positionnant NVIDIA pour dominer la prochaine phase de l’évolution de l’infrastructure IA.

Le fil conducteur de ces 1,5 heures d’annonces reflétait une transformation fondamentale : alors que les modèles d’IA grossissent de 10x chaque année et que le volume de tokens en inférence augmente de 5x annuellement, l’économie de l’IA est en train d’être remodelée par l’efficacité et l’échelle plutôt que par la puissance brute de calcul. La réponse de NVIDIA est Vera Rubin — une réinvention complète du superordinateur IA construit autour de six puces propriétaires orchestrées de manière inédite.

Vera Rubin : Six puces co-conçues atteignent 3,6 EFLOPS dans un seul rack

La plateforme phare Vera Rubin représente une philosophie d’ingénierie où chaque composant — CPU, GPU, réseau, stockage et interconnexion — a été développé conjointement pour éliminer les inefficacités aux frontières du système. Le Vera Rubin NVL72 intègre 2 trillions de transistors dans un rack modulaire, offrant 3,6 EFLOPS (exaFLOPS) de performance en inférence, soit un saut de cinq fois par rapport à la génération précédente Blackwell.

L’architecture comprend six composants développés par NVIDIA fonctionnant en concert :

Vera CPU : Construit autour de 88 cœurs Olympus personnalisés et doté d’une bande passante NVLink-C2C de 1,8TB/s pour une mémoire CPU-GPU unifiée. La mémoire système atteint 1,5TB — le triple de celui du CPU Grace précédent — permettant une orchestration sophistiquée des données pour les charges de travail d’agents et les applications en streaming.

Rubin GPU : La star introduit le moteur Transformer avec une capacité d’inférence NVFP4 de 50 PFLOPS (5x Blackwell) et une performance d’entraînement de 35 PFLOPS (3,5x Blackwell). La prise en charge de la mémoire HBM4 offre une bande passante de 22TB/s — 2,8 fois la génération précédente — essentielle pour les architectures de modèles MoE (Mixture of Experts) gourmandes en mémoire.

Switch NVLink 6 : La bande passante par GPU atteint 3,6TB/s (double de la génération précédente), avec un calcul en réseau fournissant 14,4 TFLOPS en FP8. La fabric de commutation permet un refroidissement liquide à 100 %, un facteur critique pour la densité de puissance.

ConnectX-9 SuperNIC & BlueField-4 DPU : Ensemble, ces composants offrent une décharge intelligente du réseau, BlueField-4 délivrant 6x la performance de calcul de son prédécesseur tout en réduisant la surcharge GPU pour les tâches de stockage et de réseau.

Au niveau du système, le Vera Rubin NVL72 dispose de 54TB de mémoire LPDDR5X (2,5x la génération précédente) et 20,7TB de HBM4 (1,5x la précédente), avec une capacité de bande passante totale de 260TB/s — dépassant le débit global de l’Internet mondial. Le temps d’assemblage a été réduit de deux heures à environ cinq minutes, tandis que la maintenance peut désormais se faire sans interruption du système, grâce à une architecture modulaire, sans hôte ni câbles, et à un moteur RAS de seconde génération pour le suivi continu de l’état opérationnel.

Trois avancées révolutionnent l’économie de l’inférence

Parallèlement au lancement de Vera Rubin, NVIDIA a présenté trois produits complémentaires qui répondent aux goulets d’étranglement persistants dans l’inférence IA à grande échelle :

Spectrum-X Ethernet Co-Packaged Optics : Ce système de commutation utilise une conception à deux puces avec une technologie SerDes de 200Gbps, offrant des configurations haute densité à 512 ports ou compactes à 128 ports. La commutation CPO améliore de 5x l’efficacité énergétique, de 10x la fiabilité, et de 5x la disponibilité des applications — des métriques qui réduisent directement le coût total de possession des centres de données.

Plateforme de stockage de mémoire de contexte d’inférence : Une innovation majeure dans la hiérarchie mémoire, cette infrastructure résout un goulet d’étranglement critique : à mesure que les fenêtres de contexte s’étendent à des millions de tokens dans les systèmes IA agentiques, stocker et réutiliser les caches clé-valeur (KV) devient coûteux en calcul. En traitant le contexte comme un type de donnée de première classe et en coordonnant stockage, réseau et ressources de calcul, la plateforme offre une amélioration de 5x des performances d’inférence tout en réduisant la consommation d’énergie du même facteur. Cette couche se situe entre la mémoire GPU et le stockage conventionnel, minimisant la surcharge de transfert de données grâce à une intégration étroite avec BlueField-4 et Spectrum-X.

DGX SuperPOD (basé sur Vera Rubin) : Conçu comme un plan clé en main pour le déploiement IA à l’échelle de l’entreprise, le SuperPOD orchestre huit systèmes Vera Rubin NVL72 utilisant NVLink 6 pour la montée en charge verticale et Spectrum-X Ethernet pour l’expansion horizontale. Résultat : par rapport aux systèmes Blackwell, l’entraînement de modèles MoE de taille équivalente nécessite seulement 1/4 du nombre de GPU, tandis que le coût par token d’inférence pour de lourdes charges MoE chute à seulement 1/10 de la génération précédente.

De 650 modèles open source aux plans d’IA agentique : l’offensive logicielle de NVIDIA

Si les optimisations matérielles attirent l’attention, la stratégie logicielle de NVIDIA s’est avérée tout aussi ambitieuse. En 2025 seulement, NVIDIA est devenue le principal contributeur de modèles open source, de jeux de données et de recettes sur Hugging Face, avec 650 modèles open source et 250 jeux de données. Fait remarquable, les modèles open source représentent désormais environ un quart de tous les tokens consommés sur des plateformes comme OpenRouter, avec une adoption multipliée par 20 en un an.

Au-delà de la prolifération brute de modèles, NVIDIA a introduit les « Blueprints » — des architectures de systèmes IA modulaires permettant aux développeurs de déployer rapidement des systèmes hybrides multi-modèles et cloud-agentiques. Ces cadres, intégrés à la plateforme SaaS de NVIDIA, routent dynamiquement les tâches vers des modèles privés locaux ou des modèles de pointe en cloud en fonction de l’intention de l’utilisateur, tout en invoquant sans effort des outils externes (API, interfaces robotiques, services de calendrier) et en fusionnant des entrées multimodales — texte, voix, images et données de capteurs — pour des décisions unifiées.

La famille Nemotron de NVIDIA s’est enrichie avec des modèles RAG agentiques, des variantes axées sur la sécurité, des capacités de reconnaissance vocale, ainsi qu’un nouveau modèle robotiques open source complet. Cette approche écosystémique — combinant licences permissives et outils prêts pour la production — accélère l’adoption tout en maintenant les développeurs engagés dans la plateforme NVIDIA pour le déploiement et l’optimisation.

Alpha-Mayo apporte l’autonomie basée sur le raisonnement en production

Peut-être l’annonce la plus concrète en 1,5 heure, fut celle d’Alpha-Mayo, le premier modèle open source de NVIDIA permettant aux véhicules autonomes de « réfléchir » à travers des scénarios complexes et inconnus. Avec 10 milliards de paramètres, Alpha-Mayo est suffisamment léger pour les plateformes de recherche en véhicules autonomes, tout en étant suffisamment sophistiqué pour gérer le raisonnement en situation réelle.

Le modèle fonctionne comme un système de tâches-actions basé sur le raisonnement : plutôt qu’une simple cartographie perception-contrôle, il décompose les décisions de conduite en étapes délibératives, considère plusieurs possibilités, et choisit la trajectoire la plus sûre. Cette approche s’avère cruciale pour les cas extrêmes — défaillance des feux de circulation dans des intersections bondées, comportement imprévisible des piétons — que les réseaux traditionnels de bout en bout ont du mal à gérer en toute sécurité.

NVIDIA DRIVE, alimenté par Alpha-Mayo, est entré en production et est désormais intégré dans la nouvelle Mercedes-Benz CLA, qui a récemment obtenu la plus haute note de sécurité NCAP. Le système supporte aujourd’hui la conduite mains libres sur autoroute, avec une autonomie urbaine entièrement automatisée prévue pour plus tard en 2026. Au-delà des applications automobiles, NVIDIA a annoncé des partenariats avec des leaders de la robotique — Boston Dynamics, Franka Robotics, Surgical, LG Electronics, NEURA, XRLabs, et Logic Robotics — tous standardisant sur NVIDIA Isaac et GR00T. De plus, une collaboration stratégique avec Siemens intégrera NVIDIA CUDA-X, des modèles IA et des capacités de simulation Omniverse dans les plateformes CAE, EDA et jumeau numérique de Siemens, étendant la portée de l’IA physique à la conception, la simulation, la fabrication et l’exploitation.

La fosse commune qui s’élargit : co-évolution hardware-logiciel

La signification profonde de ces 1,5 heures d’annonces ne réside pas dans chaque produit individuel, mais dans la stratégie d’avantage concurrentiel en évolution de NVIDIA. À mesure que les charges de travail d’inférence s’intensifient, la compétition sur plateforme s’est déplacée des métriques de calcul isolées vers l’ingénierie des systèmes — optimiser toute la chaîne, de la conception des puces à la mise en réseau, jusqu’à l’orchestration logicielle.

Les contributions open-source, bien qu’authentiques, servent d’investissements en amont qui stimulent la demande pour le matériel propriétaire de NVIDIA. En publiant des familles de modèles, des jeux de données et des frameworks complets, NVIDIA s’assure que les développeurs construisent autour de ses plateformes ; en fournissant ensuite des architectures matérielles intégrées qui exécutent ces modèles beaucoup plus efficacement que la concurrence, NVIDIA rend les coûts de changement prohibitifs. L’architecture Vera Rubin illustre cette approche : ses six puces co-conçues et son système unifié ne peuvent être remplacés qu’en bloc — le remplacement d’un composant individuel étant architecturally impossible.

De plus, la position stratégique de NVIDIA, plaçant les goulets d’étranglement de l’inférence (stockage de contexte, commutation réseau, accélération GPU) au cœur de la conception de sa plateforme, signifie que l’amélioration de l’efficacité nécessite une optimisation simultanée du matériel, des interconnexions et des logiciels — des capacités que seul NVIDIA possède à grande échelle. Alors que l’industrie passe de la domination de la formation IA à l’inférence à grande échelle, cet avantage compétitif systémique permet à NVIDIA de maintenir son pouvoir de fixation des prix et sa part de marché, malgré tout risque de banalisation individuelle.

Le keynote de 1,5 heure a ainsi distillé une réponse globale à la question centrale de l’industrie : à mesure que l’IA évolue des chatbots génératifs aux systèmes de raisonnement agentiques, puis à l’IA physique incarnée, comment architecturer une infrastructure à la fois puissante, efficace et impossible à reproduire ? La réponse de NVIDIA — matériel intégré, logiciels open-source et écosystèmes partenaires — suggère que l’ère Vera Rubin sera aussi transformative que l’écosystème CUDA à ses débuts, mais à une échelle beaucoup plus grande pour le marché de l’inférence.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.