Derrière le « chip mystérieux » de Nvidia — l'ère de la déduction ouvre « quatre nouvelles tendances en puissance de calcul »

robot
Création du résumé en cours

NVIDIA intègre la technologie LPU (Language Processing Unit) et mise sur des puces d'inférence multi-lignes d'OpenAI, en transférant le principal champ de compétition en IA, de la formation à l'inférence. Selon Shenwan Hongyuan Research, en 2026, le mot-clé central de l'industrie de la puissance de calcul sera l'inférence, la consommation de tokens et le paradigme technologique étant profondément repensés autour de ce thème.

Le 28 février, selon le Wall Street Journal, NVIDIA prévoit de dévoiler lors de la prochaine conférence des développeurs GTC un nouveau processeur d'inférence intégrant la technologie Groq "Language Processing Unit" (LPU), décrit par le PDG Jensen Huang comme un système totalement inédit dans le monde. OpenAI a accepté d’être l’un des principaux clients de ce processeur et achètera à NVIDIA une capacité d'inférence dédiée à grande échelle.

Par ailleurs, le mois dernier, OpenAI a conclu un partenariat de plusieurs milliards de dollars avec la startup Cerebras, qui affirme que ses puces d'inférence surpassent les GPU de NVIDIA en vitesse. Ces mouvements indiquent que, les géants de l’IA passent d’une course à la puissance de calcul pour la formation à une stratégie multi-lignes pour la puissance d’inférence.

Shenwan Hongyuan souligne que, dans l’ère de l’économie Token, la puissance d’inférence connaît quatre grandes tendances : 1) l’augmentation des déploiements purement CPU, accélérant la décentralisation des capacités de calcul à faible coût ; 2) l’émergence d’architectures spécialisées comme LPU, remettant en cause la domination des GPU dans l’inférence ; 3) la percée accélérée des puces de puissance nationales, avec une diversification claire de la chaîne d’approvisionnement ; 4) la transformation de la structure de demande en puissance d’inférence, passant du « entraînement unique » à une « consommation massive de tokens », où le rapport qualité-prix devient un facteur clé.

Le rapport indique que, les fabricants capables de fournir des puces d’inférence abordables et performantes en tireront le plus de bénéfices, la percée conjointe des CPU, LPU et puces nationales étant la clé de cette nouvelle configuration de puissance.

Explosion de la demande d’inférence, consommation de tokens record

Shenwan Hongyuan Research estime que, derrière cette croissance continue de la demande, deux moteurs structurels majeurs se dessinent : d’une part, la monétisation accélérée des grands modèles, avec des modèles comme Claude qui commencent à s’intégrer dans des applications industrielles via divers plugins ; d’autre part, l’accélération de la mise en œuvre des agents, avec des produits comme openclaw ou Qianwen Agent qui marquent l’entrée des agents dans des scénarios réels de travail et de production, chaque appel de modèle ou exécution d’agent nécessitant une puissance d’inférence considérable.

Les données de Shenwan Hongyuan montrent que, durant le Nouvel An chinois, la quantité d’inférence des grands modèles locaux a fortement augmenté : le 21 janvier, le débit d’inférence de Doubao a atteint 63,3 milliards de tokens, avec 114 millions d’utilisateurs actifs mensuels pour Yuanbao, et plus de 120 millions de participants à l’événement «免单» de Qianwen.

La plateforme mondiale d’API de modèles IA OpenRouter révèle également cette tendance. Du 9 au 15 février, la consommation de tokens des modèles chinois a atteint 4,12 trillions, dépassant pour la première fois celle des modèles américains avec 2,94 trillions. La semaine suivante, du 16 au 22 février, la consommation chinoise a encore bondi à 5,16 trillions, en hausse de 127 % en trois semaines, occupant quatre des cinq premières places mondiales en termes d’appels de modèles.

LPU, nouvelle étoile, différenciation entre puces d’entraînement et d’inférence

NVIDIA a investi 20 milliards de dollars pour obtenir une licence technologique clé de Groq, intégrant dans une transaction de « recrutement clé » des cadres dont le fondateur Jonathan Ross. Shenwan Hongyuan estime que, cette opération marque la reconnaissance officielle de l’importance des puces d’inférence pures par les acteurs de premier plan.

La différence d’architecture entre LPU et GPU traditionnel explique leur efficacité dans l’inférence. La décodeuse de grands modèles est particulièrement lente, mais LPU a été spécialement optimisée pour réduire la latence et améliorer la bande passante mémoire. Selon des rapports antérieurs, le nouveau produit NVIDIA pourrait intégrer la prochaine architecture Feynman ou adopter une solution SRAM plus large, voire une intégration via empilement 3D.

Sur cette base, Shenwan Hongyuan prévoit qu’à l’avenir, la conception des puces IA suivra une division claire : les puces d’entraînement continueront d’utiliser la combinaison GPU-HBM, tandis que celles d’inférence évolueront vers une architecture ASIC + LPU-SRAM + SSD. Avec le déplacement de la demande de puissance de l’entraînement vers l’inférence, les fabricants spécialisés dans les puces d’inférence bénéficieront d’opportunités de développement.

Révolution dans les systèmes d’inférence, CPU et réseaux en forte croissance

L’évolution ne se limite pas à la puce unique, mais concerne aussi la transformation du système dans son ensemble, un autre aspect clé de cette montée en puissance de l’inférence. Shenwan Hongyuan souligne que, avec le passage des chatbots aux agents, les exigences en termes de latence, débit et profondeur de réflexion augmentent, poussant l’architecture système vers un réseau à trois couches.

La première couche, réactive, est assurée par des puces d’inférence avec SRAM, offrant une réponse ultra-faible latence ; la deuxième couche, de réflexion lente, utilise de grands clusters de calculs pour des déductions complexes, avec une demande accrue pour CPU multi-noyaux et multithreads ; la troisième couche, de mémoire, correspond au système ContextMemory System d’NVIDIA, utilisant des SSD gérés par Bluefield4 DPU pour stocker la mémoire à long terme et le cache KV.

NVIDIA ajuste également sa stratégie matérielle. La pratique précédente de déployer le CPU Vera avec le GPU Rubin en bundle s’est avérée coûteuse pour certains workloads IA. La société a annoncé ce mois-ci une extension de sa collaboration avec Meta Platforms, avec un déploiement massif de CPU seul pour soutenir l’IA publicitaire de Meta, marquant une étape au-delà de la simple vente de GPU.

Avancées dans la puissance nationale

Shenwan Hongyuan estime que, l’essor des puces d’inférence nationales mérite une attention particulière, avec des attentes de marché différenciées.

Techniquement, les nouvelles générations de puces nationales ont réalisé plusieurs avancées fondamentales : support de formats de données à faible précision FP8/MXFP8/MXFP4, avec une puissance de calcul atteignant 1P ou 2P ; augmentation significative de la puissance vectorielle, grâce à une nouvelle conception homogène supportant SIMD/SIMT ; bande passante interconnectée multipliée par 2,5, atteignant 2 To/s.

Particulièrement notable, la séparation PD a été réalisée au niveau des puces : en utilisant deux types de HBM développés en interne, une version PR pour le pré-remplissage et la recommandation, et une version DT pour le décodage et l’entraînement. La version PR, à faible coût, vise à réduire considérablement le coût d’investissement lors du pré-remplissage d’inférence, avec une sortie prévue au premier trimestre 2026.

Au niveau de la chaîne d’approvisionnement, les progrès des fabricants nationaux d’emballage et de test confirment cette tendance. Selon une réponse à une première demande d’informations, le chiffre d’affaires de leur activité d’emballage 2.5D, principalement pour les puces de calcul haute performance, est passé de 0,5 milliard de yuans en 2022 à 1,82 milliard en 2024, confirmant la capacité croissante de l’offre nationale de puces de puissance et l’accélération de la localisation de la chaîne d’approvisionnement.

Avertissements et clauses de non-responsabilité

        Le marché comporte des risques, l’investissement doit être prudent. Cet article ne constitue pas un conseil d’investissement personnel et ne prend pas en compte les objectifs, la situation financière ou les besoins spécifiques de chaque utilisateur. Les utilisateurs doivent juger si les opinions, points de vue ou conclusions présentés ici sont adaptés à leur situation particulière. En conséquence, ils en assument la responsabilité.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé