Auteurs: Su Yang, Hao Boyang; Source: Tencent Technology
En tant que “vendeur de pelles” à l’ère de l’IA, Huang Renxun et son entreprise NVIDIA croient fermement que la puissance de calcul ne dort jamais.
Huang Renxun a déclaré lors de son discours à la GTC que le raisonnement a entraîné une augmentation exponentielle de 100 fois de la demande de puissance de calcul
Lors de la conférence GTC d’aujourd’hui, Huang Renxun a présenté le tout nouveau Blackwell Ultra GPU, ainsi que des SKU de serveurs dérivés pour l’inférence et les agents, basés sur cette architecture, y compris la gamme complète RTX. Tout cela est lié à la puissance de calcul, mais ce qui est encore plus important, c’est comment utiliser efficacement cette puissance de calcul de façon raisonnable.
Aux yeux de Huang Renxun, AGI nécessite de la puissance de calcul, les robots intelligents nécessitent de la puissance de calcul, la construction d’Omniverse et de modèles mondiaux nécessite encore plus de puissance de calcul, et en ce qui concerne la construction finale par l’humanité d’un « univers parallèle » virtuel, NVIDIA a donné une réponse - 100 fois plus que dans le passé.
Pour étayer son point de vue, Huang Renxun a présenté un ensemble de données sur place à la GTC - les quatre principaux fournisseurs de cloud aux États-Unis ont acheté un total de 1,3 million de puces Hopper en 2024, ce chiffre a grimpé en flèche à 3,6 millions de GPU Blackwell en 2025.
Voici quelques points clés de la conférence GTC 2025 de NVIDIA organisée par Tencent Tech :
La gamme complète de produits Blackwell est en ligne
1)L’Ultra Blackwell, la “bombe nucléaire” de l’année, se presse comme un tube de dentifrice
L’année dernière, lors du GTC, NVIDIA a lancé l’architecture Blackwell et a introduit la puce GB200. Cette année, le nom officiel a été légèrement ajusté, il n’est plus appelé GB300 comme précédemment rapporté, il est directement appelé Blakwell Ultra.
Mais en termes de matériel, il s’agit simplement de remplacer la mémoire HBM par une nouvelle cette année. En un mot, Blackwell Ultra = Version Blackwell avec grande mémoire.
Blackwell Ultra est composé de deux puces TSMC N4P (5nm), d’une architecture de puce Blackwell et d’un CPU Grace, ainsi que d’une mémoire HBM3e empilée sur 12 couches plus avancée, portant la mémoire vidéo à 288 Go. Tout comme la génération précédente, il prend en charge la cinquième génération de NVLink, offrant une bande passante de connexion inter-puces de 1,8 To/s.
Les performances de NVLink au fil des ans
Basée sur le stockage, la puissance de calcul de précision FP4 du GPU Blackwell peut atteindre 15PetaFLOPS, la vitesse d’inférence basée sur le mécanisme d’accélération de l’attention est augmentée de 2,5 fois par rapport à la puce de l’architecture Hopper.
2)Blackwell Ultra NVL72:AI推理专用机柜
Image officielle de Blackwell Ultra NVL72
Comme le GB200 NVL72, NVIDIA a également lancé cette année un produit similaire, le rack Blackwell Ultra NVL72, composé de 18 plateaux de calcul au total. Chaque plateau de calcul contient 4 GPU Blackwell Ultra + 2 CPU Grace, soit un total de 72 GPU Blackwell Ultra + 36 CPU Grace, avec une mémoire de 20 To, une bande passante totale de 576 To/s, ainsi que 9 plateaux de commutateurs NVLink (18 puces de commutation NVLink), avec une bande passante NVLink entre les nœuds de 130 To/s.
La baie contient 72 cartes réseau CX-8, offrant une bande passante de 14,4 To/s, tandis que les cartes Quantum-X800 InfiniBand et Spectrum-X 800G Ethernet peuvent réduire la latence et les secousses, prenant en charge des clusters d’IA à grande échelle. De plus, le châssis intègre 18 cartes BlueField-3 DPU pour renforcer les réseaux multi-locataires, la sécurité et l’accélération des données.
NVIDIA a déclaré que ce produit a été spécialement conçu pour l’“ère de raisonnement de l’IA”, avec des applications incluant l’IA de raisonnement, les agents, et la synthèse de données pour la simulation de robots et de conduite autonome(. Il offre des performances d’IA 1,5 fois supérieures à celles de la génération précédente, le GB200 NVL72, et 50 fois plus de possibilités de croissance des revenus pour les centres de données par rapport au produit de rack DGX de la même génération que l’architecture Hopper.
Selon les informations officielles, l’inférence de DeepSeek-R1 avec 671 milliards de paramètres peut atteindre 100 tokens par seconde avec le produit H100, tandis qu’avec le schéma Blackwell Ultra NVL72, il peut atteindre 1000 tokens par seconde.
En termes de temps, pour la même tâche de raisonnement, H100 nécessite 1,5 minutes pour s’exécuter, tandis que Blackwell Ultra NVL72 peut être terminé en 15 secondes.
Caractéristiques matérielles de Blackwell Ultra NVL72 et GB200 NVL72
Selon les informations fournies par Nvidia, le produit Blackwell NVL72 devrait être lancé au second semestre de 2025, avec des clients comprenant des fabricants de serveurs, des fournisseurs de cloud et des prestataires de services de location de puissance de calcul.
Fabricant de serveurs
15 fabricants tels que Cisco/Dell/HPE/Lenovo/Supermicro
Cloud Factory
Plateformes principales telles que AWS/Google Cloud/Azure/Oracle Cloud
Fournisseur de services de location de puissance de calcul
CoreWeave/Lambda/Yotta等
) 3)Préannonce du véritable “bombe atomique” GPU Rubin puce
Selon la feuille de route de NVIDIA, le lieu principal du GTC2025 est Blackwell Ultra.
Cependant, Hwang In-hyun a également profité de cette occasion pour annoncer le prochain GPU de nouvelle génération basé sur l’architecture Rubin, qui sera lancé en 2026, ainsi que le puissant boîtier Vera Rubin NVL144 - 72 CPU Vera + 144 GPU Rubin, équipé de puces HBM4 de 288 Go de mémoire vidéo, une bande passante mémoire de 13 To/s, avec la sixième génération de NVLink et la carte réseau CX9.
À quelle hauteur ce produit est-il? La puissance de calcul de raisonnement de précision FP4 atteint 3,6 ExaFLOPS, et la puissance de calcul d’entraînement de précision FP8 atteint également 1,2 ExaFLOPS, ce qui est 3,3 fois supérieur aux performances du Blackwell Ultra NVL72.
Si vous pensez que ce n’est pas assez, ce n’est pas grave, en 2027, il y aura le coffret Rubin Ultra NVL576 encore plus puissant, avec une inférence de précision FP4 et une puissance de calcul d’entraînement de précision FP8 de respectivement 15ExaFLOPS et 5ExaFLOPS, soit 14 fois plus que le Blackwell Ultra NVL72.
Les paramètres Rubin Ultra NVL144 et Rubin Ultra NVL576 fournis officiellement par NVIDIA.
) 4)Blackwell Ultra version DGX Super POD “usine de supercalculateur”
Pour les clients qui ont actuellement des besoins qui ne peuvent pas être satisfaits par le Blackwell Ultra NVL72 et qui n’ont pas besoin de construire un cluster AI à grande échelle, la solution de NVIDIA est basée sur le Blackwell Ultra, une usine supercalculateur AI DGX Super POD plug-and-play.
En tant qu’usine de supercalculateur AI plug-and-play, le DGX Super POD est principalement destiné aux scénarios IA tels que l’IA générative, l’agent IA et la simulation physique, couvrant les besoins d’extension de puissance de calcul de bout en bout, de la préformation à la production, Equinix étant le premier fournisseur de services à fournir une infrastructure de refroidissement liquide/air pour prendre en charge.
Deux versions du DGX Super POD personnalisé basées sur Blackwell Ultra sont disponibles :
DGX SuperPOD intégrant le DGX GB300 (Grace CPU ×1+Blackwell Ultra GPU ×2), totalisant 288 processeurs Grace CPU et 576 GPU Blackwell Ultra, offrant une mémoire rapide de 300 To, avec une puissance de calcul de 11,5 ExaFLOPS en FP4
Le DGX SuperPOD avec le DGX B300 intégré, cette version ne comprend pas la puce CPU Grace, a un espace d’extension supplémentaire et utilise un système de refroidissement par air, principalement utilisé dans les centres de données d’entreprise ordinaires
) 5) DGX Spark et DGX Station
En janvier de cette année, NVIDIA a présenté lors du CES un produit conceptuel AI PC appelé Project DIGITS au prix de 3000 dollars, qui a maintenant été officiellement nommé DGX Spark.
En termes de spécifications du produit, il est équipé de la puce GB10, avec une puissance de calcul de 1PetaFlops sous précision FP4, une mémoire interne de 128 Go LPDDR5X, une carte réseau CX-7, un stockage NVMe de 4 To, fonctionnant sur le système d’exploitation DGX OS basé sur Linux personnalisé, prenant en charge des frameworks tels que Pytorch, et préinstallant quelques outils de développement de logiciels AI de base fournis par NVIDIA, capable d’exécuter des modèles de 200 milliards de paramètres. Les dimensions de la machine sont proches de celles du Mac mini, deux DGX Spark peuvent être interconnectés, et peuvent également exécuter des modèles de plus de 400 milliards de paramètres.
Bien que nous l’appelions un PC AI, il relève essentiellement de la catégorie des supercalculateurs, c’est pourquoi il est inclus dans la gamme de produits DGX plutôt que dans des produits grand public tels que le RTX.
Cependant, certains ont critiqué ce produit, en disant que les performances promotionnelles de FP4 sont faibles en termes d’utilisabilité, et qu’elles ne peuvent être comparées qu’à RTX 5070 en termes de précision FP16, voire à l’Arc B580 à 250 dollars, ce qui en fait un rapport qualité-prix très faible.
L’ordinateur DGX Spark et la station de travail DGX Station
En plus du DGX Spark officiel, NVIDIA a également lancé une station de travail AI basée sur Blackwell Ultra, équipée d’un processeur Grace et d’un GPU Blackwell Ultra, avec 784 Go de mémoire unifiée, une carte réseau CX-8, offrant une puissance de calcul AI de 20 PetaFlops (non officiellement marquée, théoriquement aussi en précision FP4).
) 6) RTX balaye les PC AI, et cherche également à pénétrer dans les centres de données
Les SKUs de produits basés sur le processeur Grace CPU et le GPU Blackwell Ultra ont été présentés précédemment, et sont tous des produits de niveau professionnel. Compte tenu de l’utilisation innovante des produits tels que le RTX 4090 dans l’inférence AI, NVIDIA a renforcé l’intégration des séries Blackwell et RTX lors de la présente GTC, en lançant une série de GPU PC AI intégrant une grande vague de mémoire GDDR7, couvrant des scénarios tels que les ordinateurs portables, les ordinateurs de bureau et même les centres de données.
GPU de bureau : y compris la version station de travail RTX PRO 6000 Blackwell, la version station de travail RTX PRO 6000 Blackwell Max-Q, la version RTX PRO 5000 Blackwell, la version RTX PRO 4500 Blackwell et la version RTX PRO 4000 BlackwellGPU pour ordinateur portable : RTX PRO 5000 Blackwell, RTX PRO 4000 Blackwell, RTX PRO 3000 Blackwell, RTX PRO 2000 Blackwell, RTX PRO 1000 Blackwell et RTX PRO 500 Blackwell
Centre de données GPU : NVIDIA RTX PRO 6000 Édition serveur Blackwell
La « famille » d’IA de NVIDIA pour l’informatique d’entreprise
Ce qui précède n’est qu’une partie des SKU personnalisés pour différents scénarios basés sur la puce Blackwell Ultra, allant des postes de travail aux clusters de centres de données, que NVIDIA lui-même appelle la “Famille Blackwell”. En chinois, cela se traduit par “Ensemble Blackwell”, ce qui est tout à fait approprié.
NVIDIA Photonics: Le système CPO se tenant sur les épaules des coéquipiers
Le concept du module d’encapsulation commun optoélectronique (CPO) est simplement d’encapsuler ensemble la puce de commutation et le module optique, ce qui permet de convertir le signal optique en signal électrique et d’exploiter pleinement les performances de transmission du signal lumineux.
Avant cela, l’industrie a longtemps discuté du produit de commutation CPO de NVIDIA, mais il n’a jamais été lancé. Huang Renxun a également donné une explication sur place - en raison de l’utilisation intensive de la fibre optique dans les centres de données, la consommation d’énergie du réseau optique équivaut à 10% des ressources de calcul, le coût de la connexion optique affecte directement le réseau Scale-Out et la densité de performance de l’IA des nœuds de calcul.
Les paramètres des deux puces en silicium optique encapsulé Quantum-X et Spectrum-X présentés sur GTC
Cette année, GTC de NVIDIA a lancé en une seule fois le Quantum-X Silicium Photonique Co-Packaged Chip, le Spectrum-X Silicium Photonique Co-Packaged Chip et trois produits dérivés : le Quantum 3450-LD, le Spectrum SN6810 et le Spectrum SN6800.
Quantum 3450-LD:144个800GB/s端口,背板带宽115TB/s,液冷
Spectrum SN6810: 128 ports de 800GB/s, bande passante du backplane de 102,4 To/s, refroidissement liquide
Spectrum SN6800: 512 ports de 800 Go/s, bande passante arrière de 409,6 To/s, refroidissement liquide
Les produits susmentionnés sont tous regroupés sous le nom de “NVIDIA Photonics”. NVIDIA a déclaré qu’il s’agit d’une plateforme développée en collaboration avec des partenaires CPO, telle que son modulateur à anneaux micro-résonateurs (MRM) qui est optimisé pour le moteur optique de TSMC, prend en charge la modulation laser haute puissance et haute efficacité, et utilise un connecteur de fibre optique amovible.
Ce qui est assez intéressant, c’est que selon les informations précédentes de l’industrie, le modulateur d’anneau micro-ondes (MRM) de TSMC a été construit en collaboration avec Broadcom sur la base de la technologie de processus 3nm et de l’emballage avancé CoWoS.
Selon les données fournies par NVIDIA, les commutateurs photoniques intégrant des modules optiques offrent des performances 3,5 fois supérieures à celles des commutateurs traditionnels, une efficacité de déploiement accrue de 1,3 fois et une extensibilité de plus de 10 fois.
Efficacité du modèle PK DeepSeek: l’écosystème logiciel renforce l’agent IA
Huang Renxun décrit en direct le “gâteau” de l’infrastructure IA
Durant ce GTC de 2 heures, Hwang In-hyeon n’a parlé que pendant environ une demi-heure de logiciels et d’intelligence artificielle embarquée. Par conséquent, de nombreux détails proviennent de documents officiels et non de la scène.
) 1) Nvidia Dynamo, le nouveau CUDA construit par Nvidia dans le domaine de l’inférence
Nvidia Dynamo est définitivement le logiciel vedette de cette version.
C’est un logiciel open source conçu spécifiquement pour l’inférence, l’entraînement et l’accélération à travers l’ensemble du centre de données. Les performances de Dynamo sont assez impressionnantes : sur l’architecture Hopper existante, Dynamo peut doubler les performances du modèle standard Llama. Quant aux modèles d’inférence spécifiques tels que DeepSeek, l’optimisation intelligente de l’inférence de NVIDIA Dynamo peut également augmenter le nombre de jetons générés par chaque GPU de plus de 30 fois.
Huang Renxun a démontré que Blackwell avec Dynamo peut dépasser Hopper de plus de 25 fois
Les améliorations apportées à Dynamo sont principalement dues à sa répartition. Il répartit les différentes étapes de calcul de LLM (compréhension des requêtes des utilisateurs et génération de la meilleure réponse) sur différents GPU, ce qui permet d’optimiser chaque étape de manière indépendante, d’augmenter le débit et d’accélérer la vitesse de réponse.
Par exemple, à l’étape du traitement de l’entrée, c’est-à-dire à l’étape de pré-remplissage, Dynamo peut efficacement allouer des ressources GPU pour traiter l’entrée de l’utilisateur. Le système utilise plusieurs ensembles de GPU pour traiter les requêtes des utilisateurs en parallèle, en espérant que le traitement GPU soit plus dispersé et plus rapide. Dynamo utilise le mode FP4 pour appeler plusieurs GPU en parallèle pour “lire” et “comprendre” les problèmes des utilisateurs. Un groupe de GPU traite les connaissances de base de la “Seconde Guerre mondiale”, un autre traite les informations historiques relatives aux “causes”, et un troisième traite la chronologie et les événements liés aux “conséquences”. Cette étape ressemble à plusieurs assistants de recherche consultant simultanément de grandes quantités de données.
Dans la génération de jetons de sortie, c’est-à-dire dans la phase de décodage, le GPU doit être plus ciblé et cohérent. Par rapport au nombre de GPU, cette étape nécessite plus de bande passante pour absorber les informations de pensée de l’étape précédente, elle nécessite donc également plus de lectures de cache. Dynamo optimise la communication entre les GPU et l’allocation des ressources pour garantir une génération de réponse cohérente et efficace. D’une part, il utilise pleinement la capacité de communication NVLink à large bande passante de l’architecture NVL72 pour maximiser l’efficacité de la génération de jetons. D’autre part, le « Smart Router » dirige les requêtes vers le GPU qui a mis en cache le ) clé-valeur KV( pertinent, ce qui évite le double calcul et améliore considérablement la vitesse de traitement. En évitant le double calcul, certaines ressources GPU sont libérées et Dynamo peut allouer dynamiquement ces ressources inactives aux nouvelles requêtes entrantes.
Cette architecture est très similaire à l’architecture Mooncake de Kimi, mais NVIDIA a apporté un soutien plus important à l’infrastructure sous-jacente. Mooncake peut probablement être amélioré d’environ 5 fois, mais Dynamo a des améliorations plus significatives en termes de raisonnement.
Parmi les innovations importantes de Dynamo, le “GPU Planner” peut ajuster dynamiquement l’allocation de GPU en fonction de la charge, la “bibliothèque de communication à faible latence” optimise le transfert de données entre les GPU, tandis que le “gestionnaire de mémoire” déplace intelligemment les données d’inférence entre les périphériques de stockage de différents niveaux de coût, réduisant ainsi davantage les coûts d’exploitation. De plus, le routeur intelligent, le système de routage LLM à perception, dirige les requêtes vers le GPU le plus adapté, réduisant les calculs redondants. Ensemble, ces capacités optimisent la charge des GPU.
Ce système de raisonnement logiciel peut être efficacement étendu à des clusters de GPU de grande taille, permettant de faire évoluer de manière transparente une seule requête d’IA vers jusqu’à 1000 GPU, pour tirer pleinement parti des ressources du centre de données.
Pour les exploitants de GPU, cette amélioration entraîne une baisse significative du coût par million de jetons et une augmentation considérable de la capacité de production. En même temps, les utilisateurs obtiennent plus de jetons par seconde, une réponse plus rapide et une amélioration de l’expérience utilisateur.
Avec Dynamo, atteignez le point de revenu optimal entre le débit et la vitesse de réponse du serveur
Contrairement à CUDA, qui est la base de la programmation GPU, Dynamo est un système de niveau supérieur, axé sur l’allocation et la gestion intelligentes des charges de raisonnement à grande échelle. Il est responsable de la couche de planification distribuée de l’optimisation du raisonnement, située entre l’application et l’infrastructure informatique sous-jacente. Mais tout comme CUDA a radicalement changé le paysage du calcul GPU il y a plus de dix ans, Dynamo pourrait également ouvrir la voie à un nouveau paradigme d’efficacité matérielle et logicielle de raisonnement.
Dynamo est entièrement open source et prend en charge tous les principaux frameworks, de PyTorch à Tensor RT. Être open source ne signifie pas qu’il n’y a pas de fossé, tout comme CUDA, il n’est efficace que pour les GPU NVIDIA et fait partie de la pile logicielle d’inférence IA de NVIDIA.
En mettant à niveau ce logiciel, NVIDIA a construit sa propre défense contre les puces de calcul dédiées à l’inférence comme Groq. Il est nécessaire d’avoir une combinaison de logiciel et de matériel pour dominer l’infrastructure d’inférence.
) 2)Le nouveau modèle Llama Nemotron est efficace, mais il ne peut toujours pas battre DeepSeek
Bien que Dynamo soit assez impressionnant en termes d’utilisation du serveur, il y a encore un certain écart entre NVIDIA et les véritables experts en modélisation.
NVIDIA a présenté lors de ce GTC un nouveau modèle, le Llama Nemotron, axé sur l’efficacité et la précision. Il est dérivé de la série de modèles Llama. Après un ajustement spécifique de NVIDIA, par rapport au Llama de base, ce modèle a été optimisé par un processus d’élagage d’algorithme, le rendant plus léger avec seulement 48B. Il possède également une capacité de raisonnement similaire à o1. Comme Claude 3.7 et Grok 3, le modèle Llama Nemotron est doté d’un interrupteur de capacité de raisonnement intégré, que les utilisateurs peuvent choisir d’activer ou non. Cette série se décline en trois niveaux : Nano pour les débutants, Super pour les utilisateurs intermédiaires et Ultra en tant que produit phare, chacun adapté aux besoins de différentes entreprises en fonction de leur taille.
En termes d’efficacité, l’ensemble de données de fine-tuning de ce modèle est entièrement composé de données synthétiques générées par NVIDIA, totalisant environ 60B de jetons. Comparé à DeepSeek V3 qui a pris 1,3 million d’heures-H100 pour une formation complète, ce modèle, qui ne représente qu’un 1/15 de la taille des paramètres de DeepSeek V3, a seulement pris 360 000 heures-H100 pour le fine-tuning. L’efficacité de la formation est inférieure d’un ordre de grandeur à celle de DeepSeek.
En termes d’efficacité de raisonnement, le modèle Llama Nemotron Super 49B est en effet beaucoup plus performant que le modèle précédent, avec une capacité de traitement de jetons jusqu’à 5 fois supérieure à celle du Llama 3 70B. Sous un seul GPU de centre de données, il peut traiter plus de 3000 jetons par seconde. Cependant, selon les données publiées lors de la dernière journée de l’Open Source Day de DeepSeek, chaque nœud H800 a une capacité de traitement moyenne d’environ 73,7k jetons/s en préremplissage (y compris les hits de cache) ou d’environ 14,8k jetons/s en sortie de décodage. La différence entre les deux est encore très marquée.
En termes de performances, le Llama Nemotron Super 49B dépasse le modèle Llama 70B distillé par DeepSeek R1 dans tous les indicateurs. Cependant, compte tenu des récentes publications fréquentes de petits modèles haute puissance comme le modèle Qwen QwQ 32B, il est estimé que le Llama Nemotron Super aura du mal à se démarquer parmi ces modèles qui peuvent rivaliser avec le R1 lui-même.
Le plus mortel, c’est que ce modèle équivaut à un véritable marteau, montrant que DeepSeek peut-être mieux comprendre que Nvidia comment dresser le GPU pendant le processus d’entraînement.
) 3) Le nouveau modèle n’est que l’entrée de l’écosystème NVIDIA AI Agent, NVIDIA AIQ est le plat principal
Pourquoi NVIDIA devrait-il développer un modèle d’inférence ? C’est principalement pour préparer le prochain point d’explosion de l’IA, AI Agent, que Huang attachait de l’importance. Depuis que des géants comme OpenAI et Claude ont progressivement établi les bases de l’Agent à travers DeepReasearch, MCP, NVIDIA est clairement convaincu que l’ère de l’Agent est arrivée.
Le projet NVIDA AIQ est la tentative de NVIDIA. Il fournit directement un flux de travail prêt à l’emploi pour un planificateur d’IA Agent basé sur le modèle d’inférence Llama Nemotron. Ce projet fait partie du niveau Blueprint de NVIDIA, qui fait référence à un ensemble de flux de travail de référence préconfigurés, un ensemble de modèles de modèle, pour aider les développeurs à intégrer plus facilement la technologie et les bibliothèques de NVIDIA. Et AIQ est le modèle d’Agent fourni par NVIDIA.
Comme Manus, il intègre des moteurs de recherche web et d’autres outils AI professionnels externes, ce qui permet à cet Agent lui-même de rechercher et d’utiliser divers outils. Grâce à la planification du modèle de raisonnement Llama Nemotron, réfléchissez et optimisez les solutions pour accomplir les tâches des utilisateurs. En outre, il prend également en charge la construction de l’architecture du flux de travail multi-agents.
Ce qui va plus loin que Manus, c’est qu’il dispose d’un système RAG complexe pour les fichiers d’entreprise. Ce système comprend une série d’étapes telles que l’extraction, l’incorporation, le stockage vectoriel, le réarrangement jusqu’à ce que les données d’entreprise soient utilisées par l’Agent final via LLM.
Par dessus tout, NVIDIA a également lancé une plateforme de données IA, en connectant les modèles de raisonnement IA aux systèmes de données d’entreprise, pour former un DeepReasearch spécifique aux données d’entreprise. Cela représente une évolution majeure de la technologie de stockage, transformant les systèmes de stockage en une plateforme intelligente dotée de capacités d’inférence et d’analyse actives.
De plus, AIQ met fortement l’accent sur les mécanismes d’observabilité et de transparence. Cela est très important pour la sécurité et les améliorations ultérieures. L’équipe de développement peut surveiller en temps réel les activités de l’Agent et optimiser continuellement le système en fonction des données de performance.
Dans l’ensemble, NVIDA AIQ est un modèle de flux de travail standard pour les agents, offrant diverses capacités aux agents. C’est un logiciel de construction d’agents de type Dify, plus idiot, qui évolue vers l’ère de l’inférence.
Lancement du modèle de base du robot humanoïde: NVIDIA vise à créer un écosystème incarné entièrement fermé
) 1)Cosmos, permet à l’intelligence incarnée de comprendre le monde
Si vous pariez sur Agent ou sur le moment présent, Nvidia est vraiment en train de tout intégrer pour l’avenir en matière d’intelligence artificielle.
NVIDIA a tout arrangé pour les trois éléments clés du modèle : le modèle, les données et la puissance de calcul.
Commençons par le modèle. Cette version de GTC est une version améliorée du modèle de base Cosmos publié en janvier de cette année.
Cosmos est un modèle qui peut prédire les images futures à partir des images actuelles. Il peut prendre des données d’entrée sous forme de texte / image, générer des vidéos détaillées et prédire l’évolution de la scène en combinant son état actuel (image / vidéo) avec des actions (indices / signaux de contrôle). Comme cela nécessite une compréhension des lois physiques et causales du monde, Nvidia appelle Cosmos le modèle fondamental du monde (WFM).
Pour l’intelligence incarnée, la capacité la plus fondamentale est de prédire l’impact du comportement des machines sur le monde extérieur. C’est seulement de cette manière que le modèle peut planifier le comportement en fonction des prévisions, de sorte que le modèle du monde devient le modèle de base de l’intelligence incarnée. Avec ce modèle de prédiction du monde qui change le comportement/le temps-physique de base, en ajustant les ensembles de données spécifiques tels que la conduite automatique et les tâches robotiques, ce modèle peut répondre à divers besoins réels d’intelligence incarnée ayant une forme physique.
Le modèle entier se compose de trois parties, la première partie Cosmos Transfer convertit une entrée textuelle structurée en vidéo en une sortie vidéo réaliste contrôlable, générant des données synthétiques à grande échelle à partir de zéro avec du texte. Cela résout le plus grand obstacle actuel de l’intelligence incarnée - le problème de pénurie de données. De plus, cette génération est une génération “contrôlée”, ce qui signifie que les utilisateurs peuvent spécifier des paramètres spécifiques (comme les conditions météorologiques, les attributs d’objets, etc.), le modèle ajustera en conséquence les résultats générés, rendant le processus de génération de données plus contrôlable et ciblé. Tout le processus peut également être combiné par Ominiverse et Cosmos.
La simulation de la réalité de Cosmos est construite sur l’Ominiverse
La deuxième partie de Cosmos Predict est capable de générer des états du monde virtuel à partir d’entrées multimodales, prenant en charge la génération de plusieurs images clés et la prédiction des trajectoires de mouvement. Cela signifie que, en donnant des états initiaux et finaux, le modèle peut générer un processus intermédiaire raisonnable. Il s’agit d’une capacité fondamentale de cognition et de construction du monde physique.
La troisième partie est Cosmos Reason, un modèle ouvert et entièrement personnalisable, doté de capacités de perception temporelle et spatiale, capable de comprendre les données vidéo par inférence de chaîne de pensée et de prédire les résultats de l’interaction. Il s’agit d’une capacité d’amélioration de la planification des actions et de la prédiction des résultats des actions.
Avec l’accumulation progressive de ces trois capacités, Cosmos peut réaliser un processus complet, de la tokenisation de l’image réelle et de la saisie de commande de texte à la production de token d’action machine.
Ce modèle de base devrait en effet être assez performant. En seulement deux mois, 1X, Agility Robotics et Figure AI, ces trois grandes entreprises, ont commencé à l’utiliser. Bien que le grand modèle linguistique ne soit pas en avance, l’intelligence articulée de Nvidia est vraiment dans le peloton de tête.
) 2)Isaac GR00T N1, le premier modèle de robot humanoïde au monde
Avec Cosmos, Nvidia a naturellement affiné le modèle de base Isaac GR00T N1 dédié aux robots humanoïdes à l’aide de ce cadre.
Il adopte une architecture à double système, avec un “système 1” réactif et un “système 2” profondément réfléchi. Son réglage fin complet lui permet de gérer des tâches générales telles que la saisie, le déplacement, les opérations à double bras, etc. De plus, il peut être entièrement personnalisé en fonction du robot spécifique, les développeurs de robots pouvant effectuer un post-entraînement avec des données réelles ou synthétiques. Cela signifie que ce modèle peut en fait être déployé dans une grande variété de robots de formes et de tailles différentes.
Par exemple, NVIDIA a collaboré avec Google DeepMind et Disney pour développer le moteur physique Newton, utilisant Isaac GR00T N1 comme base pour piloter un petit robot BDX de Disney très rare. Cela montre sa polyvalence. Newton, en tant que moteur physique, est très délicat, ce qui le rend suffisamment robuste pour établir un système de récompenses physiques pour entraîner l’intelligence incarnée dans des environnements virtuels.
Hwang In-hyun interagit avec passion avec le robot BDX sur scène
) 4)Génération de données, double approche
NVIDIA a combiné NVIDIA Omniverse avec le modèle de base mondial NVIDIA Cosmos Transfer mentionné ci-dessus pour créer Isaac GR00T Blueprint. Il peut générer une grande quantité de données d’actions synthétiques à partir d’une petite démonstration humaine pour l’entraînement des opérations de robot. En utilisant les composants initiaux de Blueprint, NVIDIA a généré 780 000 trajectoires synthétiques en seulement 11 heures, équivalant à 6 500 heures (environ 9 mois) de données de démonstration humaine. Une grande partie des données de Isaac GR00T N1 provient de là, ces données permettant d’améliorer les performances de GR00T N1 de 40% par rapport à l’utilisation uniquement de données réelles.
Pour chaque modèle, NVIDIA peut fournir une grande quantité de données de haute qualité grâce à Omniverse, un système entièrement virtuel, et Cosmos Transfer, un système de génération d’images du monde réel. NVIDIA couvre également le deuxième aspect de ce modèle.
) 3)Système de puissance de calcul trinitaire, créant un empire de calcul de robot de la formation à l’extrémité
Depuis l’année dernière, Huang a mis l’accent sur le concept de ‘trois ordinateurs’ sur GTC : un est le DGX, un serveur GPU de grande taille utilisé pour l’entraînement de l’IA, y compris l’intelligence physique. L’autre est l’AGX, une plateforme de calcul embarquée conçue par NVIDIA pour le calcul d’arêtes et les systèmes autonomes, utilisée pour le déploiement spécifique de l’IA sur le bord, comme puce centrale pour la conduite automatique ou les robots. Le troisième est l’ordinateur de génération de données Omniverse+Cosmos.
Les trois grands systèmes de calcul avec intelligence incarnée
Ce système a été de nouveau souligné par Lao Huang lors de ce GTC, et il a spécifiquement mentionné qu’avec ce système de puissance de calcul, des robots de niveau milliardaire peuvent être créés. De la formation au déploiement, toute la puissance de calcul est fournie par NVIDIA. Cela complète également cette partie.
Conclusion
Comparé simplement à la génération précédente de puces Blackwell, le Blackwell Ultra ne correspond vraiment pas en termes de matériel aux adjectifs “bombe nucléaire”, “coup de maître” utilisés précédemment, il a même un goût de dentifrice.
Cependant, si l’on considère la planification de la feuille de route, tout cela fait partie de la mise en place de Huang Renxun. L’architecture Rubin de l’année prochaine et de l’année suivante verra une augmentation significative de l’intégration des processus de puce, des transistors, des cadres, de l’interconnexion GPU et de l’interconnexion du rack, comme le disent les Chinois, le meilleur reste à venir.
Comparé à l’approche de combler la faim avec des gâteaux au niveau matériel, NVIDIA a fait des progrès fulgurants au cours des deux dernières années au niveau logiciel.
Dans l’ensemble de l’écosystème logiciel de Nvidia, les services des trois niveaux Meno, Nim et Blueprint intègrent l’optimisation du modèle, l’encapsulation du modèle et la construction d’applications dans une solution complète. L’écosystème de l’entreprise de services cloud coïncide entièrement avec l’IA de Nvidia. Avec l’ajout de cet agent, Nvidia doit intégrer tous les aspects de l’infrastructure IA, à l’exception du modèle de base.
En termes de logiciel, l’appétit de Lao Huang est aussi grand que le prix des actions de NVIDIA.
Dans le domaine des robots, Nvidia a des ambitions plus grandes. Les trois éléments clés - modèle, données et puissance de calcul - sont tous entre ses mains. Ne parvenant pas à rattraper le leader des modèles de langage de base, il complète avec une intelligence incarnée. Vaguement perceptible, un géant monopolistique de l’intelligence incarnée a déjà fait son apparition à l’horizon.
À l’intérieur, chaque étape, chaque produit correspond à un marché potentiel de plusieurs milliards de dollars. Le chanceux magnat des jeux, Huang Renxun, qui a misé gros il y a des années, a commencé à jouer un jeu plus important avec l’argent gagné grâce au monopole des GPU.
Si l’un des acteurs du marché des logiciels ou des robots domine ce jeu, NVIDIA deviendra le Google de l’ère de l’IA, le monopole de premier plan dans la chaîne alimentaire.
Cependant, en regardant la marge bénéficiaire des GPU NVIDIA, nous espérons toujours un tel avenir.
Heureusement, pour la génération de Lao Huang, c’est aussi le plus grand jeu auquel il n’ait jamais participé, et l’issue est incertaine.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Une lecture de la conférence GTC de NVIDIA de Jen-Hsun Huang : la conviction que la puissance de calcul ne dort jamais
Auteurs: Su Yang, Hao Boyang; Source: Tencent Technology
En tant que “vendeur de pelles” à l’ère de l’IA, Huang Renxun et son entreprise NVIDIA croient fermement que la puissance de calcul ne dort jamais.
Huang Renxun a déclaré lors de son discours à la GTC que le raisonnement a entraîné une augmentation exponentielle de 100 fois de la demande de puissance de calcul
Lors de la conférence GTC d’aujourd’hui, Huang Renxun a présenté le tout nouveau Blackwell Ultra GPU, ainsi que des SKU de serveurs dérivés pour l’inférence et les agents, basés sur cette architecture, y compris la gamme complète RTX. Tout cela est lié à la puissance de calcul, mais ce qui est encore plus important, c’est comment utiliser efficacement cette puissance de calcul de façon raisonnable.
Aux yeux de Huang Renxun, AGI nécessite de la puissance de calcul, les robots intelligents nécessitent de la puissance de calcul, la construction d’Omniverse et de modèles mondiaux nécessite encore plus de puissance de calcul, et en ce qui concerne la construction finale par l’humanité d’un « univers parallèle » virtuel, NVIDIA a donné une réponse - 100 fois plus que dans le passé.
Pour étayer son point de vue, Huang Renxun a présenté un ensemble de données sur place à la GTC - les quatre principaux fournisseurs de cloud aux États-Unis ont acheté un total de 1,3 million de puces Hopper en 2024, ce chiffre a grimpé en flèche à 3,6 millions de GPU Blackwell en 2025.
Voici quelques points clés de la conférence GTC 2025 de NVIDIA organisée par Tencent Tech :
La gamme complète de produits Blackwell est en ligne
1)L’Ultra Blackwell, la “bombe nucléaire” de l’année, se presse comme un tube de dentifrice
L’année dernière, lors du GTC, NVIDIA a lancé l’architecture Blackwell et a introduit la puce GB200. Cette année, le nom officiel a été légèrement ajusté, il n’est plus appelé GB300 comme précédemment rapporté, il est directement appelé Blakwell Ultra.
Mais en termes de matériel, il s’agit simplement de remplacer la mémoire HBM par une nouvelle cette année. En un mot, Blackwell Ultra = Version Blackwell avec grande mémoire.
Blackwell Ultra est composé de deux puces TSMC N4P (5nm), d’une architecture de puce Blackwell et d’un CPU Grace, ainsi que d’une mémoire HBM3e empilée sur 12 couches plus avancée, portant la mémoire vidéo à 288 Go. Tout comme la génération précédente, il prend en charge la cinquième génération de NVLink, offrant une bande passante de connexion inter-puces de 1,8 To/s.
Les performances de NVLink au fil des ans
Basée sur le stockage, la puissance de calcul de précision FP4 du GPU Blackwell peut atteindre 15PetaFLOPS, la vitesse d’inférence basée sur le mécanisme d’accélération de l’attention est augmentée de 2,5 fois par rapport à la puce de l’architecture Hopper.
2)Blackwell Ultra NVL72:AI推理专用机柜
Image officielle de Blackwell Ultra NVL72
Comme le GB200 NVL72, NVIDIA a également lancé cette année un produit similaire, le rack Blackwell Ultra NVL72, composé de 18 plateaux de calcul au total. Chaque plateau de calcul contient 4 GPU Blackwell Ultra + 2 CPU Grace, soit un total de 72 GPU Blackwell Ultra + 36 CPU Grace, avec une mémoire de 20 To, une bande passante totale de 576 To/s, ainsi que 9 plateaux de commutateurs NVLink (18 puces de commutation NVLink), avec une bande passante NVLink entre les nœuds de 130 To/s.
La baie contient 72 cartes réseau CX-8, offrant une bande passante de 14,4 To/s, tandis que les cartes Quantum-X800 InfiniBand et Spectrum-X 800G Ethernet peuvent réduire la latence et les secousses, prenant en charge des clusters d’IA à grande échelle. De plus, le châssis intègre 18 cartes BlueField-3 DPU pour renforcer les réseaux multi-locataires, la sécurité et l’accélération des données.
NVIDIA a déclaré que ce produit a été spécialement conçu pour l’“ère de raisonnement de l’IA”, avec des applications incluant l’IA de raisonnement, les agents, et la synthèse de données pour la simulation de robots et de conduite autonome(. Il offre des performances d’IA 1,5 fois supérieures à celles de la génération précédente, le GB200 NVL72, et 50 fois plus de possibilités de croissance des revenus pour les centres de données par rapport au produit de rack DGX de la même génération que l’architecture Hopper.
Selon les informations officielles, l’inférence de DeepSeek-R1 avec 671 milliards de paramètres peut atteindre 100 tokens par seconde avec le produit H100, tandis qu’avec le schéma Blackwell Ultra NVL72, il peut atteindre 1000 tokens par seconde.
En termes de temps, pour la même tâche de raisonnement, H100 nécessite 1,5 minutes pour s’exécuter, tandis que Blackwell Ultra NVL72 peut être terminé en 15 secondes.
![图片])https://img.gateio.im/social/moments-ae009b85584d17a96ee0582e943e48ff(
Caractéristiques matérielles de Blackwell Ultra NVL72 et GB200 NVL72
Selon les informations fournies par Nvidia, le produit Blackwell NVL72 devrait être lancé au second semestre de 2025, avec des clients comprenant des fabricants de serveurs, des fournisseurs de cloud et des prestataires de services de location de puissance de calcul.
15 fabricants tels que Cisco/Dell/HPE/Lenovo/Supermicro
Plateformes principales telles que AWS/Google Cloud/Azure/Oracle Cloud
CoreWeave/Lambda/Yotta等
) 3)Préannonce du véritable “bombe atomique” GPU Rubin puce
Selon la feuille de route de NVIDIA, le lieu principal du GTC2025 est Blackwell Ultra.
Cependant, Hwang In-hyun a également profité de cette occasion pour annoncer le prochain GPU de nouvelle génération basé sur l’architecture Rubin, qui sera lancé en 2026, ainsi que le puissant boîtier Vera Rubin NVL144 - 72 CPU Vera + 144 GPU Rubin, équipé de puces HBM4 de 288 Go de mémoire vidéo, une bande passante mémoire de 13 To/s, avec la sixième génération de NVLink et la carte réseau CX9.
À quelle hauteur ce produit est-il? La puissance de calcul de raisonnement de précision FP4 atteint 3,6 ExaFLOPS, et la puissance de calcul d’entraînement de précision FP8 atteint également 1,2 ExaFLOPS, ce qui est 3,3 fois supérieur aux performances du Blackwell Ultra NVL72.
Si vous pensez que ce n’est pas assez, ce n’est pas grave, en 2027, il y aura le coffret Rubin Ultra NVL576 encore plus puissant, avec une inférence de précision FP4 et une puissance de calcul d’entraînement de précision FP8 de respectivement 15ExaFLOPS et 5ExaFLOPS, soit 14 fois plus que le Blackwell Ultra NVL72.
![图片]###https://img.gateio.im/social/moments-116d07948d787697d1e19a423dc7ace4(
Les paramètres Rubin Ultra NVL144 et Rubin Ultra NVL576 fournis officiellement par NVIDIA.
) 4)Blackwell Ultra version DGX Super POD “usine de supercalculateur”
Pour les clients qui ont actuellement des besoins qui ne peuvent pas être satisfaits par le Blackwell Ultra NVL72 et qui n’ont pas besoin de construire un cluster AI à grande échelle, la solution de NVIDIA est basée sur le Blackwell Ultra, une usine supercalculateur AI DGX Super POD plug-and-play.
En tant qu’usine de supercalculateur AI plug-and-play, le DGX Super POD est principalement destiné aux scénarios IA tels que l’IA générative, l’agent IA et la simulation physique, couvrant les besoins d’extension de puissance de calcul de bout en bout, de la préformation à la production, Equinix étant le premier fournisseur de services à fournir une infrastructure de refroidissement liquide/air pour prendre en charge.
![图片]###https://img.gateio.im/social/moments-d459d098063a0ff6728108328daffd3f(
Le DGX SuperPod construit par Blackwell Ultra
Deux versions du DGX Super POD personnalisé basées sur Blackwell Ultra sont disponibles :
) 5) DGX Spark et DGX Station
En janvier de cette année, NVIDIA a présenté lors du CES un produit conceptuel AI PC appelé Project DIGITS au prix de 3000 dollars, qui a maintenant été officiellement nommé DGX Spark.
En termes de spécifications du produit, il est équipé de la puce GB10, avec une puissance de calcul de 1PetaFlops sous précision FP4, une mémoire interne de 128 Go LPDDR5X, une carte réseau CX-7, un stockage NVMe de 4 To, fonctionnant sur le système d’exploitation DGX OS basé sur Linux personnalisé, prenant en charge des frameworks tels que Pytorch, et préinstallant quelques outils de développement de logiciels AI de base fournis par NVIDIA, capable d’exécuter des modèles de 200 milliards de paramètres. Les dimensions de la machine sont proches de celles du Mac mini, deux DGX Spark peuvent être interconnectés, et peuvent également exécuter des modèles de plus de 400 milliards de paramètres.
Bien que nous l’appelions un PC AI, il relève essentiellement de la catégorie des supercalculateurs, c’est pourquoi il est inclus dans la gamme de produits DGX plutôt que dans des produits grand public tels que le RTX.
Cependant, certains ont critiqué ce produit, en disant que les performances promotionnelles de FP4 sont faibles en termes d’utilisabilité, et qu’elles ne peuvent être comparées qu’à RTX 5070 en termes de précision FP16, voire à l’Arc B580 à 250 dollars, ce qui en fait un rapport qualité-prix très faible.
![图片]###https://img.gateio.im/social/moments-0ad2286c98bbdacda9a450abd3606e80(
L’ordinateur DGX Spark et la station de travail DGX Station
En plus du DGX Spark officiel, NVIDIA a également lancé une station de travail AI basée sur Blackwell Ultra, équipée d’un processeur Grace et d’un GPU Blackwell Ultra, avec 784 Go de mémoire unifiée, une carte réseau CX-8, offrant une puissance de calcul AI de 20 PetaFlops (non officiellement marquée, théoriquement aussi en précision FP4).
) 6) RTX balaye les PC AI, et cherche également à pénétrer dans les centres de données
Les SKUs de produits basés sur le processeur Grace CPU et le GPU Blackwell Ultra ont été présentés précédemment, et sont tous des produits de niveau professionnel. Compte tenu de l’utilisation innovante des produits tels que le RTX 4090 dans l’inférence AI, NVIDIA a renforcé l’intégration des séries Blackwell et RTX lors de la présente GTC, en lançant une série de GPU PC AI intégrant une grande vague de mémoire GDDR7, couvrant des scénarios tels que les ordinateurs portables, les ordinateurs de bureau et même les centres de données.
![图片]###https://img.gateio.im/social/moments-b6c591bdc6c60a8e477fc88631a3b9a0(
La « famille » d’IA de NVIDIA pour l’informatique d’entreprise
Ce qui précède n’est qu’une partie des SKU personnalisés pour différents scénarios basés sur la puce Blackwell Ultra, allant des postes de travail aux clusters de centres de données, que NVIDIA lui-même appelle la “Famille Blackwell”. En chinois, cela se traduit par “Ensemble Blackwell”, ce qui est tout à fait approprié.
NVIDIA Photonics: Le système CPO se tenant sur les épaules des coéquipiers
Le concept du module d’encapsulation commun optoélectronique (CPO) est simplement d’encapsuler ensemble la puce de commutation et le module optique, ce qui permet de convertir le signal optique en signal électrique et d’exploiter pleinement les performances de transmission du signal lumineux.
Avant cela, l’industrie a longtemps discuté du produit de commutation CPO de NVIDIA, mais il n’a jamais été lancé. Huang Renxun a également donné une explication sur place - en raison de l’utilisation intensive de la fibre optique dans les centres de données, la consommation d’énergie du réseau optique équivaut à 10% des ressources de calcul, le coût de la connexion optique affecte directement le réseau Scale-Out et la densité de performance de l’IA des nœuds de calcul.
![图片])https://img.gateio.im/social/moments-1d701aeb143b1f0cd089570733b1df70(
Les paramètres des deux puces en silicium optique encapsulé Quantum-X et Spectrum-X présentés sur GTC
Cette année, GTC de NVIDIA a lancé en une seule fois le Quantum-X Silicium Photonique Co-Packaged Chip, le Spectrum-X Silicium Photonique Co-Packaged Chip et trois produits dérivés : le Quantum 3450-LD, le Spectrum SN6810 et le Spectrum SN6800.
Les produits susmentionnés sont tous regroupés sous le nom de “NVIDIA Photonics”. NVIDIA a déclaré qu’il s’agit d’une plateforme développée en collaboration avec des partenaires CPO, telle que son modulateur à anneaux micro-résonateurs (MRM) qui est optimisé pour le moteur optique de TSMC, prend en charge la modulation laser haute puissance et haute efficacité, et utilise un connecteur de fibre optique amovible.
Ce qui est assez intéressant, c’est que selon les informations précédentes de l’industrie, le modulateur d’anneau micro-ondes (MRM) de TSMC a été construit en collaboration avec Broadcom sur la base de la technologie de processus 3nm et de l’emballage avancé CoWoS.
Selon les données fournies par NVIDIA, les commutateurs photoniques intégrant des modules optiques offrent des performances 3,5 fois supérieures à celles des commutateurs traditionnels, une efficacité de déploiement accrue de 1,3 fois et une extensibilité de plus de 10 fois.
Efficacité du modèle PK DeepSeek: l’écosystème logiciel renforce l’agent IA
![图片])https://img.gateio.im/social/moments-91bee3beda93d8e9e62f4e3f3f9aa47c(
Huang Renxun décrit en direct le “gâteau” de l’infrastructure IA
Durant ce GTC de 2 heures, Hwang In-hyeon n’a parlé que pendant environ une demi-heure de logiciels et d’intelligence artificielle embarquée. Par conséquent, de nombreux détails proviennent de documents officiels et non de la scène.
) 1) Nvidia Dynamo, le nouveau CUDA construit par Nvidia dans le domaine de l’inférence
Nvidia Dynamo est définitivement le logiciel vedette de cette version.
C’est un logiciel open source conçu spécifiquement pour l’inférence, l’entraînement et l’accélération à travers l’ensemble du centre de données. Les performances de Dynamo sont assez impressionnantes : sur l’architecture Hopper existante, Dynamo peut doubler les performances du modèle standard Llama. Quant aux modèles d’inférence spécifiques tels que DeepSeek, l’optimisation intelligente de l’inférence de NVIDIA Dynamo peut également augmenter le nombre de jetons générés par chaque GPU de plus de 30 fois.
![图片]###https://img.gateio.im/social/moments-e2048dbf1ea9e5d046fd9fd8bca2a244(
Huang Renxun a démontré que Blackwell avec Dynamo peut dépasser Hopper de plus de 25 fois
Les améliorations apportées à Dynamo sont principalement dues à sa répartition. Il répartit les différentes étapes de calcul de LLM (compréhension des requêtes des utilisateurs et génération de la meilleure réponse) sur différents GPU, ce qui permet d’optimiser chaque étape de manière indépendante, d’augmenter le débit et d’accélérer la vitesse de réponse.
![图片])https://img.gateio.im/social/moments-380b9fe8c64618f264b3e2a82e3da790(
L’architecture du système Dynamo
Par exemple, à l’étape du traitement de l’entrée, c’est-à-dire à l’étape de pré-remplissage, Dynamo peut efficacement allouer des ressources GPU pour traiter l’entrée de l’utilisateur. Le système utilise plusieurs ensembles de GPU pour traiter les requêtes des utilisateurs en parallèle, en espérant que le traitement GPU soit plus dispersé et plus rapide. Dynamo utilise le mode FP4 pour appeler plusieurs GPU en parallèle pour “lire” et “comprendre” les problèmes des utilisateurs. Un groupe de GPU traite les connaissances de base de la “Seconde Guerre mondiale”, un autre traite les informations historiques relatives aux “causes”, et un troisième traite la chronologie et les événements liés aux “conséquences”. Cette étape ressemble à plusieurs assistants de recherche consultant simultanément de grandes quantités de données.
Dans la génération de jetons de sortie, c’est-à-dire dans la phase de décodage, le GPU doit être plus ciblé et cohérent. Par rapport au nombre de GPU, cette étape nécessite plus de bande passante pour absorber les informations de pensée de l’étape précédente, elle nécessite donc également plus de lectures de cache. Dynamo optimise la communication entre les GPU et l’allocation des ressources pour garantir une génération de réponse cohérente et efficace. D’une part, il utilise pleinement la capacité de communication NVLink à large bande passante de l’architecture NVL72 pour maximiser l’efficacité de la génération de jetons. D’autre part, le « Smart Router » dirige les requêtes vers le GPU qui a mis en cache le ) clé-valeur KV( pertinent, ce qui évite le double calcul et améliore considérablement la vitesse de traitement. En évitant le double calcul, certaines ressources GPU sont libérées et Dynamo peut allouer dynamiquement ces ressources inactives aux nouvelles requêtes entrantes.
Cette architecture est très similaire à l’architecture Mooncake de Kimi, mais NVIDIA a apporté un soutien plus important à l’infrastructure sous-jacente. Mooncake peut probablement être amélioré d’environ 5 fois, mais Dynamo a des améliorations plus significatives en termes de raisonnement.
Parmi les innovations importantes de Dynamo, le “GPU Planner” peut ajuster dynamiquement l’allocation de GPU en fonction de la charge, la “bibliothèque de communication à faible latence” optimise le transfert de données entre les GPU, tandis que le “gestionnaire de mémoire” déplace intelligemment les données d’inférence entre les périphériques de stockage de différents niveaux de coût, réduisant ainsi davantage les coûts d’exploitation. De plus, le routeur intelligent, le système de routage LLM à perception, dirige les requêtes vers le GPU le plus adapté, réduisant les calculs redondants. Ensemble, ces capacités optimisent la charge des GPU.
Ce système de raisonnement logiciel peut être efficacement étendu à des clusters de GPU de grande taille, permettant de faire évoluer de manière transparente une seule requête d’IA vers jusqu’à 1000 GPU, pour tirer pleinement parti des ressources du centre de données.
Pour les exploitants de GPU, cette amélioration entraîne une baisse significative du coût par million de jetons et une augmentation considérable de la capacité de production. En même temps, les utilisateurs obtiennent plus de jetons par seconde, une réponse plus rapide et une amélioration de l’expérience utilisateur.
![图片])https://img.gateio.im/social/moments-f8de7caca1c8cdd058d3b932d7d378a1(
Avec Dynamo, atteignez le point de revenu optimal entre le débit et la vitesse de réponse du serveur
Contrairement à CUDA, qui est la base de la programmation GPU, Dynamo est un système de niveau supérieur, axé sur l’allocation et la gestion intelligentes des charges de raisonnement à grande échelle. Il est responsable de la couche de planification distribuée de l’optimisation du raisonnement, située entre l’application et l’infrastructure informatique sous-jacente. Mais tout comme CUDA a radicalement changé le paysage du calcul GPU il y a plus de dix ans, Dynamo pourrait également ouvrir la voie à un nouveau paradigme d’efficacité matérielle et logicielle de raisonnement.
Dynamo est entièrement open source et prend en charge tous les principaux frameworks, de PyTorch à Tensor RT. Être open source ne signifie pas qu’il n’y a pas de fossé, tout comme CUDA, il n’est efficace que pour les GPU NVIDIA et fait partie de la pile logicielle d’inférence IA de NVIDIA.
En mettant à niveau ce logiciel, NVIDIA a construit sa propre défense contre les puces de calcul dédiées à l’inférence comme Groq. Il est nécessaire d’avoir une combinaison de logiciel et de matériel pour dominer l’infrastructure d’inférence.
) 2)Le nouveau modèle Llama Nemotron est efficace, mais il ne peut toujours pas battre DeepSeek
Bien que Dynamo soit assez impressionnant en termes d’utilisation du serveur, il y a encore un certain écart entre NVIDIA et les véritables experts en modélisation.
NVIDIA a présenté lors de ce GTC un nouveau modèle, le Llama Nemotron, axé sur l’efficacité et la précision. Il est dérivé de la série de modèles Llama. Après un ajustement spécifique de NVIDIA, par rapport au Llama de base, ce modèle a été optimisé par un processus d’élagage d’algorithme, le rendant plus léger avec seulement 48B. Il possède également une capacité de raisonnement similaire à o1. Comme Claude 3.7 et Grok 3, le modèle Llama Nemotron est doté d’un interrupteur de capacité de raisonnement intégré, que les utilisateurs peuvent choisir d’activer ou non. Cette série se décline en trois niveaux : Nano pour les débutants, Super pour les utilisateurs intermédiaires et Ultra en tant que produit phare, chacun adapté aux besoins de différentes entreprises en fonction de leur taille.
![图片]###https://img.gateio.im/social/moments-f96380931cf2a144170345b7ec105846(
Les données spécifiques de Llama Nemotron
En termes d’efficacité, l’ensemble de données de fine-tuning de ce modèle est entièrement composé de données synthétiques générées par NVIDIA, totalisant environ 60B de jetons. Comparé à DeepSeek V3 qui a pris 1,3 million d’heures-H100 pour une formation complète, ce modèle, qui ne représente qu’un 1/15 de la taille des paramètres de DeepSeek V3, a seulement pris 360 000 heures-H100 pour le fine-tuning. L’efficacité de la formation est inférieure d’un ordre de grandeur à celle de DeepSeek.
En termes d’efficacité de raisonnement, le modèle Llama Nemotron Super 49B est en effet beaucoup plus performant que le modèle précédent, avec une capacité de traitement de jetons jusqu’à 5 fois supérieure à celle du Llama 3 70B. Sous un seul GPU de centre de données, il peut traiter plus de 3000 jetons par seconde. Cependant, selon les données publiées lors de la dernière journée de l’Open Source Day de DeepSeek, chaque nœud H800 a une capacité de traitement moyenne d’environ 73,7k jetons/s en préremplissage (y compris les hits de cache) ou d’environ 14,8k jetons/s en sortie de décodage. La différence entre les deux est encore très marquée.
![图片])https://img.gateio.im/social/moments-8378715743f1e60d041a3cd7d7c219de(
En termes de performances, le Llama Nemotron Super 49B dépasse le modèle Llama 70B distillé par DeepSeek R1 dans tous les indicateurs. Cependant, compte tenu des récentes publications fréquentes de petits modèles haute puissance comme le modèle Qwen QwQ 32B, il est estimé que le Llama Nemotron Super aura du mal à se démarquer parmi ces modèles qui peuvent rivaliser avec le R1 lui-même.
Le plus mortel, c’est que ce modèle équivaut à un véritable marteau, montrant que DeepSeek peut-être mieux comprendre que Nvidia comment dresser le GPU pendant le processus d’entraînement.
) 3) Le nouveau modèle n’est que l’entrée de l’écosystème NVIDIA AI Agent, NVIDIA AIQ est le plat principal
Pourquoi NVIDIA devrait-il développer un modèle d’inférence ? C’est principalement pour préparer le prochain point d’explosion de l’IA, AI Agent, que Huang attachait de l’importance. Depuis que des géants comme OpenAI et Claude ont progressivement établi les bases de l’Agent à travers DeepReasearch, MCP, NVIDIA est clairement convaincu que l’ère de l’Agent est arrivée.
Le projet NVIDA AIQ est la tentative de NVIDIA. Il fournit directement un flux de travail prêt à l’emploi pour un planificateur d’IA Agent basé sur le modèle d’inférence Llama Nemotron. Ce projet fait partie du niveau Blueprint de NVIDIA, qui fait référence à un ensemble de flux de travail de référence préconfigurés, un ensemble de modèles de modèle, pour aider les développeurs à intégrer plus facilement la technologie et les bibliothèques de NVIDIA. Et AIQ est le modèle d’Agent fourni par NVIDIA.
![图片]###https://img.gateio.im/social/moments-97ea77b03ad4a4fe4b1b1fede25596a4(
L’architecture de NVIDA AIQ
Comme Manus, il intègre des moteurs de recherche web et d’autres outils AI professionnels externes, ce qui permet à cet Agent lui-même de rechercher et d’utiliser divers outils. Grâce à la planification du modèle de raisonnement Llama Nemotron, réfléchissez et optimisez les solutions pour accomplir les tâches des utilisateurs. En outre, il prend également en charge la construction de l’architecture du flux de travail multi-agents.
![图片])https://img.gateio.im/social/moments-075dfe522598ad052ab2907c048fb015(
Système servicenow basé sur ce modèle.
Ce qui va plus loin que Manus, c’est qu’il dispose d’un système RAG complexe pour les fichiers d’entreprise. Ce système comprend une série d’étapes telles que l’extraction, l’incorporation, le stockage vectoriel, le réarrangement jusqu’à ce que les données d’entreprise soient utilisées par l’Agent final via LLM.
Par dessus tout, NVIDIA a également lancé une plateforme de données IA, en connectant les modèles de raisonnement IA aux systèmes de données d’entreprise, pour former un DeepReasearch spécifique aux données d’entreprise. Cela représente une évolution majeure de la technologie de stockage, transformant les systèmes de stockage en une plateforme intelligente dotée de capacités d’inférence et d’analyse actives.
![图片])https://img.gateio.im/social/moments-a39ee6ec030b38226c1811e5d14a2348(
La composition de la plateforme de données AI
De plus, AIQ met fortement l’accent sur les mécanismes d’observabilité et de transparence. Cela est très important pour la sécurité et les améliorations ultérieures. L’équipe de développement peut surveiller en temps réel les activités de l’Agent et optimiser continuellement le système en fonction des données de performance.
Dans l’ensemble, NVIDA AIQ est un modèle de flux de travail standard pour les agents, offrant diverses capacités aux agents. C’est un logiciel de construction d’agents de type Dify, plus idiot, qui évolue vers l’ère de l’inférence.
Lancement du modèle de base du robot humanoïde: NVIDIA vise à créer un écosystème incarné entièrement fermé
) 1)Cosmos, permet à l’intelligence incarnée de comprendre le monde
Si vous pariez sur Agent ou sur le moment présent, Nvidia est vraiment en train de tout intégrer pour l’avenir en matière d’intelligence artificielle.
NVIDIA a tout arrangé pour les trois éléments clés du modèle : le modèle, les données et la puissance de calcul.
Commençons par le modèle. Cette version de GTC est une version améliorée du modèle de base Cosmos publié en janvier de cette année.
Cosmos est un modèle qui peut prédire les images futures à partir des images actuelles. Il peut prendre des données d’entrée sous forme de texte / image, générer des vidéos détaillées et prédire l’évolution de la scène en combinant son état actuel (image / vidéo) avec des actions (indices / signaux de contrôle). Comme cela nécessite une compréhension des lois physiques et causales du monde, Nvidia appelle Cosmos le modèle fondamental du monde (WFM).
![图片]###https://img.gateio.im/social/moments-96eed5a18a4c78811de012d7353fe71d(
L’architecture de base de Cosmos
Pour l’intelligence incarnée, la capacité la plus fondamentale est de prédire l’impact du comportement des machines sur le monde extérieur. C’est seulement de cette manière que le modèle peut planifier le comportement en fonction des prévisions, de sorte que le modèle du monde devient le modèle de base de l’intelligence incarnée. Avec ce modèle de prédiction du monde qui change le comportement/le temps-physique de base, en ajustant les ensembles de données spécifiques tels que la conduite automatique et les tâches robotiques, ce modèle peut répondre à divers besoins réels d’intelligence incarnée ayant une forme physique.
Le modèle entier se compose de trois parties, la première partie Cosmos Transfer convertit une entrée textuelle structurée en vidéo en une sortie vidéo réaliste contrôlable, générant des données synthétiques à grande échelle à partir de zéro avec du texte. Cela résout le plus grand obstacle actuel de l’intelligence incarnée - le problème de pénurie de données. De plus, cette génération est une génération “contrôlée”, ce qui signifie que les utilisateurs peuvent spécifier des paramètres spécifiques (comme les conditions météorologiques, les attributs d’objets, etc.), le modèle ajustera en conséquence les résultats générés, rendant le processus de génération de données plus contrôlable et ciblé. Tout le processus peut également être combiné par Ominiverse et Cosmos.
![图片])https://img.gateio.im/social/moments-e6b5268dffddd018830e53f9ae2c2515(
La simulation de la réalité de Cosmos est construite sur l’Ominiverse
La deuxième partie de Cosmos Predict est capable de générer des états du monde virtuel à partir d’entrées multimodales, prenant en charge la génération de plusieurs images clés et la prédiction des trajectoires de mouvement. Cela signifie que, en donnant des états initiaux et finaux, le modèle peut générer un processus intermédiaire raisonnable. Il s’agit d’une capacité fondamentale de cognition et de construction du monde physique.
La troisième partie est Cosmos Reason, un modèle ouvert et entièrement personnalisable, doté de capacités de perception temporelle et spatiale, capable de comprendre les données vidéo par inférence de chaîne de pensée et de prédire les résultats de l’interaction. Il s’agit d’une capacité d’amélioration de la planification des actions et de la prédiction des résultats des actions.
Avec l’accumulation progressive de ces trois capacités, Cosmos peut réaliser un processus complet, de la tokenisation de l’image réelle et de la saisie de commande de texte à la production de token d’action machine.
Ce modèle de base devrait en effet être assez performant. En seulement deux mois, 1X, Agility Robotics et Figure AI, ces trois grandes entreprises, ont commencé à l’utiliser. Bien que le grand modèle linguistique ne soit pas en avance, l’intelligence articulée de Nvidia est vraiment dans le peloton de tête.
) 2)Isaac GR00T N1, le premier modèle de robot humanoïde au monde
Avec Cosmos, Nvidia a naturellement affiné le modèle de base Isaac GR00T N1 dédié aux robots humanoïdes à l’aide de ce cadre.
![图片]###https://img.gateio.im/social/moments-03f9b90d7d4337d4b49542337c32cccf(
L’architecture à double système d’Isaac GR00T N1
Il adopte une architecture à double système, avec un “système 1” réactif et un “système 2” profondément réfléchi. Son réglage fin complet lui permet de gérer des tâches générales telles que la saisie, le déplacement, les opérations à double bras, etc. De plus, il peut être entièrement personnalisé en fonction du robot spécifique, les développeurs de robots pouvant effectuer un post-entraînement avec des données réelles ou synthétiques. Cela signifie que ce modèle peut en fait être déployé dans une grande variété de robots de formes et de tailles différentes.
Par exemple, NVIDIA a collaboré avec Google DeepMind et Disney pour développer le moteur physique Newton, utilisant Isaac GR00T N1 comme base pour piloter un petit robot BDX de Disney très rare. Cela montre sa polyvalence. Newton, en tant que moteur physique, est très délicat, ce qui le rend suffisamment robuste pour établir un système de récompenses physiques pour entraîner l’intelligence incarnée dans des environnements virtuels.
![图片])https://img.gateio.im/social/moments-cb2f7f01e71700f7175d3a81f75d38b9(
Hwang In-hyun interagit avec passion avec le robot BDX sur scène
) 4)Génération de données, double approche
NVIDIA a combiné NVIDIA Omniverse avec le modèle de base mondial NVIDIA Cosmos Transfer mentionné ci-dessus pour créer Isaac GR00T Blueprint. Il peut générer une grande quantité de données d’actions synthétiques à partir d’une petite démonstration humaine pour l’entraînement des opérations de robot. En utilisant les composants initiaux de Blueprint, NVIDIA a généré 780 000 trajectoires synthétiques en seulement 11 heures, équivalant à 6 500 heures (environ 9 mois) de données de démonstration humaine. Une grande partie des données de Isaac GR00T N1 provient de là, ces données permettant d’améliorer les performances de GR00T N1 de 40% par rapport à l’utilisation uniquement de données réelles.
![图片]###https://img.gateio.im/social/moments-4a7651bbdc8a83e0c1d4c39e114d730a(
Système de simulation jumeau
Pour chaque modèle, NVIDIA peut fournir une grande quantité de données de haute qualité grâce à Omniverse, un système entièrement virtuel, et Cosmos Transfer, un système de génération d’images du monde réel. NVIDIA couvre également le deuxième aspect de ce modèle.
) 3)Système de puissance de calcul trinitaire, créant un empire de calcul de robot de la formation à l’extrémité
Depuis l’année dernière, Huang a mis l’accent sur le concept de ‘trois ordinateurs’ sur GTC : un est le DGX, un serveur GPU de grande taille utilisé pour l’entraînement de l’IA, y compris l’intelligence physique. L’autre est l’AGX, une plateforme de calcul embarquée conçue par NVIDIA pour le calcul d’arêtes et les systèmes autonomes, utilisée pour le déploiement spécifique de l’IA sur le bord, comme puce centrale pour la conduite automatique ou les robots. Le troisième est l’ordinateur de génération de données Omniverse+Cosmos.
![图片]###https://img.gateio.im/social/moments-7dba53ee823059c29b6b23fb6e0a86f5(
Les trois grands systèmes de calcul avec intelligence incarnée
Ce système a été de nouveau souligné par Lao Huang lors de ce GTC, et il a spécifiquement mentionné qu’avec ce système de puissance de calcul, des robots de niveau milliardaire peuvent être créés. De la formation au déploiement, toute la puissance de calcul est fournie par NVIDIA. Cela complète également cette partie.
Conclusion
Comparé simplement à la génération précédente de puces Blackwell, le Blackwell Ultra ne correspond vraiment pas en termes de matériel aux adjectifs “bombe nucléaire”, “coup de maître” utilisés précédemment, il a même un goût de dentifrice.
Cependant, si l’on considère la planification de la feuille de route, tout cela fait partie de la mise en place de Huang Renxun. L’architecture Rubin de l’année prochaine et de l’année suivante verra une augmentation significative de l’intégration des processus de puce, des transistors, des cadres, de l’interconnexion GPU et de l’interconnexion du rack, comme le disent les Chinois, le meilleur reste à venir.
Comparé à l’approche de combler la faim avec des gâteaux au niveau matériel, NVIDIA a fait des progrès fulgurants au cours des deux dernières années au niveau logiciel.
Dans l’ensemble de l’écosystème logiciel de Nvidia, les services des trois niveaux Meno, Nim et Blueprint intègrent l’optimisation du modèle, l’encapsulation du modèle et la construction d’applications dans une solution complète. L’écosystème de l’entreprise de services cloud coïncide entièrement avec l’IA de Nvidia. Avec l’ajout de cet agent, Nvidia doit intégrer tous les aspects de l’infrastructure IA, à l’exception du modèle de base.
En termes de logiciel, l’appétit de Lao Huang est aussi grand que le prix des actions de NVIDIA.
Dans le domaine des robots, Nvidia a des ambitions plus grandes. Les trois éléments clés - modèle, données et puissance de calcul - sont tous entre ses mains. Ne parvenant pas à rattraper le leader des modèles de langage de base, il complète avec une intelligence incarnée. Vaguement perceptible, un géant monopolistique de l’intelligence incarnée a déjà fait son apparition à l’horizon.
À l’intérieur, chaque étape, chaque produit correspond à un marché potentiel de plusieurs milliards de dollars. Le chanceux magnat des jeux, Huang Renxun, qui a misé gros il y a des années, a commencé à jouer un jeu plus important avec l’argent gagné grâce au monopole des GPU.
Si l’un des acteurs du marché des logiciels ou des robots domine ce jeu, NVIDIA deviendra le Google de l’ère de l’IA, le monopole de premier plan dans la chaîne alimentaire.
Cependant, en regardant la marge bénéficiaire des GPU NVIDIA, nous espérons toujours un tel avenir.
Heureusement, pour la génération de Lao Huang, c’est aussi le plus grand jeu auquel il n’ait jamais participé, et l’issue est incertaine.