« AI nouvelle génération » du GPU à l'LPU : Nvidia lance une offensive majeure dans les puces d'inférence, Jensen Huang marque une étape clé

K-LinePoet · 2026-03-30T14:17:51+00:00

NVIDIA a lancé Groq 3 LPU lors du GTC 2026, entrant sur le marché des puces d'inférence, dans le but de répondre à la tendance du passage de la puissance de calcul AI de la formation à l'inférence. La nouvelle plateforme Vera Rubin intègre plusieurs puces pour répondre aux besoins de débit élevé des systèmes intelligents. Par ailleurs, NVIDIA initie une mise à niveau de l'ensemble de l'écosystème en lançant une conception de référence pour l'usine AI, favorisant le développement technologique de l'industrie. Cette stratégie pourrait accélérer la concurrence et exercer une pression sur les fabricants locaux.

K-LinePoet

2026-03-30 14:17:51

Création du résumé en cours

« Nouvelle ère de l’IA » : des GPU aux LPU, Nvidia passe à l’offensive contre les puces d’inférence, et Huang Renxun place une pièce décisive

Le 17 mars à l’aube, lors du GTC 2026, le PDG de Nvidia, Huang Renxun, a dévoilé une nouvelle arme : Groq 3 LPU, en attaquant de front le marché des puces d’inférence.

Les tendances de l’industrie de l’IA ont changé. Ces dernières années, tout le monde s’est acharné à « entraîner des modèles » : nourrir les données aux GPU, attendre qu’ils développent l’intelligence. À l’époque, les GPU de Nvidia étaient le seul roi, personne ne pouvait l’ébranler. Mais ces deux dernières années, des agents intelligents se sont précipités en masse sur le marché : Manus est devenu viral, OpenClaw a envahi les écrans. Les fabricants de modèles et les fournisseurs de services cloud ont commencé à gagner de l’argent en vendant des tokens. Et des sociétés comme Cerebras brandissaient des slogans « plus rapide, moins cher », en arrachant des brèches dans le territoire que Nvidia occupait depuis des années.

L’industrie a enfin compris : l’entraînement continue, mais « l’inférence » est devenue la tendance principale. Nvidia ne manquerait naturellement pas cette opportunité de marché : sur ce gâteau de l’inférence, elle aussi veut en prendre une part. Le 17 mars à l’aube, lors du GTC 2026, le PDG de Nvidia, Huang Renxun, a dévoilé une nouvelle arme : Groq 3 LPU, en attaquant de front le marché des puces d’inférence. Dans le même temps, il a jeté des chiffres : d’ici la fin 2027, les deux gammes de produits Blackwell et Rubin devraient atteindre 1 000 milliards de dollars de revenus annuels, soit le double de la prévision faite il y a à peine six mois.

Saisir l’entraînement et l’inférence à deux mains

Cette fois, Nvidia lance officiellement la plateforme Vera Rubin, qui intègre 7 puces : Rubin GPU, Vera CPU, ConnectX-9 SuperNIC, BlueField-4 DPU, NVLink 6 Switch, Spectrum-X 102.4T CPO, ainsi que la nouvelle Groq 3 LPU intégrée.

Le « LPU » correspond à « Language Processing Unit », c’est-à-dire une unité de traitement du langage. Il s’agit d’une puce d’accélération d’inférence IA dédiée. Le Rubin GPU, combiné à la Groq LPU, fera passer le débit actuel de 100 tokens par seconde à 1 500 tokens par seconde, voire davantage, afin de prendre parfaitement en charge les scénarios d’interaction des agents IA.

Nvidia a aussi lancé un rack complet, destiné à accueillir les nouveaux accélérateurs Groq : Groq LPX. Selon Ian Buck, vice-président senior chez Nvidia pour les architectures à grande échelle et le calcul haute performance, Groq LPX améliorera les performances de décodage de « chaque couche du modèle IA par token », et permettra à Rubin de servir le prochain domaine de pointe de l’intelligence artificielle : les systèmes multi-agents. Ces systèmes doivent, tout en exécutant des modèles contenant des milliers de milliards de paramètres, offrir des performances interactives dans des fenêtres de contexte de plusieurs millions de tokens.

L’ambition de Nvidia pour le marché des puces d’inférence ne date pas d’aujourd’hui ; elle était préparée en amont. En décembre 2025, la société a acquis, pour environ 20 milliards de dollars, les actifs technologiques clés de Groq. Son fondateur a rejoint Nvidia, et la Groq 3 LPU est le premier résultat public après l’acquisition.

D’après les prévisions basées sur un modèle de la division de recherche en investissement mondial de Goldman Sachs, parmi les puces d’IA pour serveurs d’IA, la part d’expédition des puces non-GPGPU devrait augmenter nettement : elle passerait progressivement de 36 % en 2024 à 45 % en 2027. À l’inverse, la part des expéditions des puces GPGPU devrait diminuer progressivement, de 64 % en 2024 à 55 % en 2027.

Qin Fengwei, analyste senior chez InSemi Research, a expliqué au reporter que les GPU seront plus compétitifs pour les scénarios nécessitant une formation de grands modèles sur socle et exigeant plus de polyvalence (comme le cloud public), ainsi que pour les scénarios de calcul parallèle. En revanche, les ASIC (incluant TPU, DPU, NPU, LPU, etc.) ont davantage d’avantages à l’étape du déploiement du modèle et dans les scénarios d’inférence, car ces scénarios imposent des exigences plus élevées en matière de ratio efficacité énergétique, latence de réponse, etc.

« Donc, le fait que Nvidia lance des LPU répond à une mise en place stratégique face à l’évolution de la demande en puissance de calcul IA, passant de “l’entraînement” à “l’inférence”. C’est une étape cruciale pour combler les lacunes. Grâce à une configuration produit plus fine, elle répond aux changements du marché et aux défis des concurrents. » a déclaré Zhang Xiaorong, directeur de l’Institut de recherche en technologies profondes, au reporter.

Selon des informations médiatiques, le plan de Nvidia visant la demande croissante en inférence lui a déjà porté ses fruits. Le mois dernier, OpenAI a indiqué avoir conclu un accord avec Nvidia pour acheter des puces dotées de « capacités d’inférence dédiées ».

De la puce à l’écosystème d’usine : montée en gamme

Au cours des dernières années, l’IA générative a déclenché l’essor du marché. L’entraînement des grands modèles est devenu un abîme absolu en matière de puissance de calcul. Grâce à la domination incontestée des GPU, Nvidia a capté l’essentiel des bénéfices de cette vague : performances et valorisation boursière ont explosé dans les deux sens, engrangeant des profits considérables.

Cependant, lorsque la course aux paramètres des modèles entre dans la phase de décroissance de l’effet marginal, l’entraînement des grands modèles, après deux ans de course effrénée, a finalement ralenti. À partir de 2025, l’axe de la concurrence a commencé à se déplacer : les agents intelligents et l’ingénierie de contexte montent sur le devant de la scène. Le signal le plus direct : OpenClaw a conquis les plateformes sociales, traversant le cercle technologique jusqu’à toucher l’information du grand public.

Les agents intelligents sont l’un des principaux facteurs qui stimulent la croissance de la demande sur le marché de l’inférence. Leurs scénarios clés mettent davantage l’accent sur l’inférence plutôt que sur l’entraînement. Cette position est clairement étayée par plusieurs recherches faisant autorité et des analyses sectorielles. Ainsi, lorsque les capacités IA évoluent depuis la phase d’entraînement des grands modèles de base vers des agents mettant l’accent sur la construction de workflows, le centre de gravité de la demande en puissance de calcul IA s’est déplacé de l’entraînement vers l’inférence.

Et en tant que principal acteur de l’infrastructure IA, Nvidia doit aussi s’adapter à la tendance du marché, mais au niveau de l’écosystème tout entier.

Lors de ce GTC, en plus de lancer les LPU, Nvidia a également réuni, avec Peter Steinberger, fondateur d’OpenClaw, et une équipe de spécialistes de premier plan en matière de sécurité et de calcul, pour lancer la référence NeMoClaw. Elle intègre la technologie OpenShell, des mécanismes de protection réseau et des capacités de routage de la confidentialité, permettant aux entreprises d’exécuter en toute sécurité des systèmes d’agents dans leur environnement privé.

Nvidia a même lancé une conception de référence d’usine IA : Vera Rubin DSX AI factory, pour enseigner comment concevoir, construire et exploiter toute la pile d’infrastructure d’une usine d’IA. Elle couvre le calcul, le réseau NVIDIA Spectrum-XEthernet et le stockage, afin de réaliser des performances de cluster répétables, extensibles et optimales.

Huang Renxun a déclaré : « À l’ère de l’IA, les tokens intelligents sont une nouvelle monnaie, et l’usine IA est l’infrastructure qui génère ces tokens. Grâce à la conception de référence Vera Rubin DSX AI Factory et à Omniverse DSX Blueprint (blueprint de jumeau numérique), nous fournissons la base pour construire l’usine IA la plus productive au monde, accélérons le délai jusqu’aux premiers revenus et maximisons l’efficacité à l’échelle et énergétique. »

Quant à l’impact du lancement des LPU sur la part de ses GPU phares, le journaliste de China Times a interrogé Nvidia à ce sujet, mais au moment de la rédaction, aucune réponse n’a été reçue. « Le fait que Nvidia entre sur le marché des puces d’inférence ne signifie pas que l’activité GPU en souffrira. Au contraire, grâce à la synergie avec les LPU, elle ouvrira un espace de marché encore plus large. » a déclaré Zhang Xiaorong.

Yuan Bo, expert associé nommé par le Think Tank Cizhan, indique que, à court terme, les GPU dominent le marché grâce à leur forte adaptabilité aux scénarios et à des barrières écologiques. En particulier dans les scénarios d’entraînement IA. À long terme, toutefois, les deux voies ne sont pas entièrement en opposition ; elles évolueront vers une fusion et une segmentation du marché. « Sur le plan matériel, les GPU intégreront des cœurs spécialisés plus puissants, tandis que les puces dédiées augmenteront leur programmabilité. Sur le marché, on s’attend à ce qu’une structure en couches se forme : innovation dominée par l’un et plateforme universelle d’un côté, et puces spécialisées approfondissant l’inférence à grande échelle de l’autre. »

Sur le marché des ASIC, il y a en fait déjà une série d’adversaires de Nvidia, notamment Cerebras à l’étranger, et en Chine des acteurs comme Cambrian, Huawei, et Astera Labs. Zhang Xiaorong estime que l’entrée de Nvidia sur le domaine des puces d’inférence représente à la fois un défi et un catalyseur pour les entreprises nationales. Cela formera une situation complexe où coexistent « la compression » et la « mise sous contrainte », ce qui accélérera la recomposition de l’industrie et la montée en gamme technologique.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.