Jensen Huang annonce l'arrivée de l'ère de la raisonnement, quelles nouvelles variables LPU apportera-t-il ?

Question

Le 16 mars, heure locale, le PDG d’NVIDIA, Huang Renxun, a dévoilé lors du GTC une toute nouvelle plateforme de calcul conçue pour l’IA des agents — NVIDIA Vera Rubin.

Cette plateforme ressemble à un ensemble d’« équipement de calcul » ultra performant, réunissant plusieurs composants essentiels, dont Vera CPU (unité de traitement centrale), Rubin GPU (processeur graphique), le commutateur NVLink 6, ConnectX-9 SuperNIC (carte réseau super), BlueField-4 DPU (processeur de traitement de données), ainsi que Spectrum-6 (commutateur Ethernet) et le nouveau Groq 3 LPU (unité de traitement du langage).

En termes simples, il s’agit d’un ensemble complet de matériel conçu pour l’IA, afin de rendre le calcul plus rapide et plus intelligent.

Par ailleurs, NVIDIA a aussi lancé un rack Groq 3 LPX, conçu pour les déploiements à grande échelle. Cela signifie qu’il peut agréger des centaines de LPU pour travailler de concert, comme un « cerveau super », afin d’atteindre des vitesses d’inférence très élevées et des capacités massives de traitement de texte. Ce rack intègre 256 LPU, avec un stockage haute vitesse embarqué de 128 GB, et une vitesse de transfert allant jusqu’à 640 TB/s.

Selon des acteurs du secteur, le point fort de cette annonce ne réside pas seulement dans une mise à niveau des puces, mais surtout dans un bond en avant de la densité d’intégration du système. Zhuang Changlei, directeur du groupe IA/fabrication intelligente de Yunxiu Capital, a déclaré dans une interview au journaliste du 21st Century Business Herald : « Le plus grand changement est qu’NVIDIA a officiellement élevé les LPU, qui étaient auparavant une puce unique ou un simple accélérateur, au rang de système de rack de premier niveau au même niveau que les GPU. »

Notamment, le nombre de LPU du rack LPX est passé de 64 sur la première génération à 256 : ce saut de densité dépasse largement les attentes du secteur, et reflète aussi le besoin urgent du marché en inférence de très faible latence et pour des textes longs.

Zhuang Changlei estime que cela marque la transition de l’informatique IA, d’un mode « axé sur l’entraînement » vers un équilibre « entraînement + inférence », l’inférence devenant une nouvelle infrastructure de base au niveau du système.

Objectif : l’inférence

Les LPU sont une nouvelle architecture de puce pensée pour des tâches calculatoires intensives de traitement séquentiel. Leur objectif central est d’optimiser l’efficacité de l’inférence des modèles de langage grâce à des innovations d’architecture.

Sur le plan de l’architecture, un seul Groq 3 LPU intègre 500 MB de SRAM : l’un des éléments clés du LPU est le bloc MEM, une architecture de mémoire plate et orientée SRAM. Les 500 MB de SRAM haute vitesse embarquée constituent le principal espace de travail pour l’inférence.

(Source de l’image : site officiel d’NVIDIA)

Le compilateur et l’environnement d’exécution placent l’ensemble des worksets actifs (incluant les poids, les activations et l’état KV) dans la mémoire embarquée et déplacent explicitement les données, plutôt que de dépendre du cache géré par le matériel. Cela réduit les latences imprévisibles et, en plaçant les données les plus sensibles à la latence à proximité du lieu de calcul, permet d’obtenir une latence faible et stable.

Zhuang Changlei a indiqué au journaliste que l’avantage central des Groq LPU ne se limite pas à la rapidité, mais réside dans une latence déterministe : « aussi rapide à chaque fois ». La conception d’une architecture à déterminisme temporel (Timing Deterministic) nécessite une personnalisation approfondie de la pipeline de calcul, des accès mémoire et du compilateur, avec un niveau de difficulté technologique extrêmement élevé.

Dans des scénarios tels que le contrôle industriel ou la conduite autonome, où la réactivité en temps réel impose des exigences strictes, cette « déterminisme » est un besoin incontournable. En revanche, les architectures GPU généralistes et les ASIC conçus par des fournisseurs de cloud à partir d’un jeu d’instructions simplifié ont du mal à atteindre un tel degré de déterminisme tout en conservant une grande flexibilité.

L’étude de Haitong Securities note qu’en comparaison avec le CES de janvier, lors de ce GTC, la position des Groq LPU dans la gamme globale d’NVIDIA est devenue plus claire. NVIDIA prévoit d’exploiter les caractéristiques de faible latence des LPU pour répondre aux exigences élevées des applications interactives telles que l’Agent AI.

Zhuang Changlei a également souligné que lorsque le goulot d’étranglement de latence du matériel est brisé, les concepteurs de modèles auront davantage confiance pour explorer des interactions plus réelles et plus complexes en IA. Par exemple, les AI Agents actuels ont peut-être encore besoin de quelques secondes de réflexion ; à l’avenir, ils pourraient véritablement atteindre des réactions au niveau de la milliseconde. Le modèle ne sera plus « bavardant », mais dialoguera avec vous de façon fluide, en temps réel, comme un être humain.

L’année 1 de la photonique au silicium

En dehors des racks NVIDIA Groq 3 LPX, un autre point fort de la plateforme Rubin réside dans le rack Ethernet NVIDIA Spectrum-6 SPX.

En utilisant la technologie Ethernet silicium/optique à intégration optoélectronique unifiée (CPO) de Spectrum-X, par rapport aux transceivers traditionnels remplaçables, l’efficacité énergétique optique peut augmenter jusqu’à 5 fois, et la fiabilité du système jusqu’à 10 fois.

« Scale-Out (interconnexion entre armoires) est l’incrément le plus évident à l’heure actuelle. » a indiqué Zhuang Changlei. La plateforme Rubin a déjà commencé à intégrer des switchs CPO pour résoudre le problème du déluge de données entre de nombreuses armoires dans un centre de données ; il est prévu que 2027 devienne un jalon important pour le déploiement des CPO à grande échelle.

Lors du GTC, NVIDIA a aussi révélé que, après Vera Rubin, la prochaine architecture majeure d’NVIDIA serait Feynman. Elle inclura un nouveau CPU : NVIDIA Rosa.

Rosa est le cœur de la nouvelle plateforme. Elle combinera le tout nouveau LPU LP40 d’NVIDIA avec NVIDIA BlueField-5 et CX10, en réalisant l’extension verticale des liaisons à câble cuivre et d’intégration optoélectronique unifiée via NVIDIA Kyber, ainsi que l’extension horizontale optique de niveau Spectrum via NVIDIA Spectrum.

« Scale-Up (à l’intérieur de l’armoire/entre puces) est l’angle le plus prospectif. » a indiqué Zhuang Changlei. Dans l’architecture Feynman, NVIDIA prévoit d’introduire NVLink 8 CPO pour obtenir « la lumière dans l’armoire », c’est-à-dire remplacer une partie des connexions traditionnelles par backplane cuivre par des interconnexions optiques, en reliant directement le GPU aux LPU. Cela signifie que l’interconnexion optique avance progressivement, passant des commutateurs les plus en périphérie jusqu’au cœur des armoires de calcul.

Selon Zhuang Changlei, en tant que « vaisseaux sanguins » de l’interconnexion de puissance de calcul, la valeur des modules optiques augmente en continu avec l’expansion de la taille des clusters d’agents. À mesure que le CPO passe du laboratoire à la commercialisation à grande échelle, l’année 1 de la photonique au silicium est déjà lancée, ce qui entraînera directement une mise à niveau de l’ensemble de la chaîne d’approvisionnement des équipements de communication.

La demande de PCB de niveau avancé pourrait exploser

Comme indiqué plus haut, pour répondre aux exigences de faible latence et de longs contextes des systèmes d’agents, NVIDIA a aussi lancé un rack d’accélération d’inférence Groq 3 LPX comprenant 256 processeurs LPU. Une fois combiné à Vera Rubin, le débit d’inférence par mégawatt peut être multiplié par 35.

Quant à l’expédition des LPU/LPX sous forme d’armoires, elle aura un impact subversif sur l’industrie des PCB, et pourrait être le maillon le plus inattendu de la chaîne, au-delà des attentes.

Les PCB, ou cartes de circuits imprimés, sont le support qui relie électriquement entre eux des composants électroniques. Ils sont désormais présents dans presque tous les appareils électroniques. L’industrie chinoise des PCB, moteur clé de la fabrication électronique mondiale, affiche une croissance solide.

Grâce à des avantages comme la gestion des coûts, les normes environnementales et la complémentarité de la chaîne industrielle, la valeur de production de l’industrie chinoise continentale des PCB représente actuellement plus de 50 % du monde, et a formé des clusters industriels tels que la baie de Bohai, le delta de la rivière des Perles et le delta du Yangtsé.

Du point de vue amont et aval, avec la croissance explosive de la demande liée à l’IA et la poursuite de l’augmentation des investissements des fournisseurs de cloud, les achats de serveurs IA, d’équipements de stockage et de réseaux augmentent. CITIC Securities (601066) estime que le marché des PCB correspondant à des serveurs GPU+ASIC en 2025 dépasse 40 milliards ; en 2026, il dépasse 90 milliards. Le rythme de croissance a déjà doublé.

« À l’heure actuelle, le secteur mondial des PCB pour serveurs d’IA se trouve dans un état de déficit offre-demande d’environ 20 %. » a admis Zhuang Changlei.

Selon Zhuang Changlei, à mesure que les armoires LPU/LPX entreront en phase de production de masse de fin 2026 à 2027, la demande en PCB de niveau avancé connaîtra une tendance “à l’explosion”. « Cela aggravera davantage la pénurie d’offres en PCB HDI de niveau avancé et en PCB à plus grand nombre de couches, poussant toute la chaîne d’industrie des PCB dans une nouvelle phase d’extension de capacités et de modernisation. »

Par exemple, au sein des armoires LPU/LPX, il faut traiter d’énormes flux de données et assurer une communication à très faible latence, ce qui impose des exigences extrêmement élevées en matière de nombre de couches, de matériaux et de procédés de fabrication pour les PCB. Prenons l’exemple des racks LPU d’NVIDIA : la valeur des PCB d’une seule carte mère peut atteindre 6 000 dollars, tandis que la valeur totale des PCB d’un rack complet atteint 96k dollars (équivalent à près de 700k yuans RMB). Cela représente une hausse de plus de 10 fois par rapport à la valeur des PCB des serveurs IA traditionnels.

En outre, pour répondre à la transmission de signaux haute vitesse de 224 Gbps et plus, et pour supporter l’interconnexion à grande vitesse entre 256 LPU, les PCB doivent utiliser des substrats et des conceptions plus avancés. Par exemple, concernant les matériaux, les substrats ordinaires ne suffisent plus : il faut passer à des substrats de type M9 avec revêtement de cuivre (cuivre plaqué), et les matériaux renforcés passent des tissus en verre électronique ordinaires à des tissus Q-glass, dont la valeur est 10 fois supérieure. Les produits de la prochaine génération commencent même déjà à tester les matériaux M10.

Zhuang Changlei a déclaré que, dans l’architecture Rubin Ultra, une solution de backplane orthogonale est même introduite : grâce à 78 couches de PCB, l’interconnexion directe entre le GPU et le NVSwitch est réalisée, ce qui réduit fortement l’utilisation de câbles en cuivre. Cela marque le fait que le PCB remplace une partie du rôle des câbles traditionnels et devient la « charpente » de l’interconnexion à l’intérieur de l’armoire.

Jensen Huang annonce l'arrivée de l'ère de la raisonnement, quelles nouvelles variables LPU apportera-t-il ?

Sujets populaires

GateSquareAprilPostingChallenge

WeekendCryptoHoldingGuide

IsraelStrikesIranBTCPlunges

CryptoMarketSeesVolatility

OilPricesRise

Hot Gate Fun

RRLX

ROOT RLX

oil

oil

HORMUZ

HORMUZ

pa cion

pa cion

JUMPC

Jump Coin

Épingler