La puissance de calcul est trop rare ! Les frais de location du H100, lancé par Nvidia il y a quatre ans, ont augmenté de près de 40 % en six mois.

robot
Création du résumé en cours

Avec l’arrivée de la nouvelle année, tandis que des géants de l’IA comme Anthropic et ByteDance ne cessent de publier des applications à succès, et que, en parallèle, la frénésie « d’écrevisses » stimule l’explosion des appels aux modèles de langage open source, les puces H100 d’NVIDIA connaissent un moment fort de retournement « en V » de leur valorisation sur le marché de la location.

Il faut savoir que cette puce est un produit lancé par Huang Renxun lors du GTC de mars 2022, puis commencé à être expédié à partir de l’automne de la même année.

D’après l’« indice des prix des contrats de location à un an » de la H100 publié jeudi par l’institut de recherche en semi-conducteurs SemiAnalysis, après être passée, en octobre 2025, à 1,7 dollar par heure, cette « vieille puce » a bondi en mars de cette année pour atteindre 2,35 dollars par heure par GPU, soit une hausse de près de 40%.

(Source : SemiAnalysis)

Cet indice repose sur des données d’enquête directe menées auprès de plus de 100 fournisseurs de services cloud, ainsi que des acheteurs et vendeurs de ressources de calcul. L’enquête est réalisée une fois par mois.

Le dernier rapport indique que la capacité GPU louée à la demande est désormais entièrement vendue sur tous les types de GPU : même si les prix ont augmenté récemment, les clients ayant déjà verrouillé des instances à la demande ne veulent pas libérer cette capacité dans le pool de ressources. L’institution compare aussi la situation : trouver de la capacité GPU au début de 2026, c’est comme essayer de réserver des billets pour « le dernier vol qui part »—les prix sont élevés et il y a presque aucune ressource disponible.

Les chercheurs ajoutent : « Les clients se bousculent pour acheter en enchères les instances p6-b200 de services cloud d’Amazon à un prix de 14 dollars par GPU et par heure. Certains grands acteurs émergents des services cloud (Neocloud Giants) ne proposent même plus la vente au niveau d’un seul nœud ; certaines GPU NVIDIA H100 sont encore renouvelées au prix initial signé il y a 2 à 3 ans, et même certains contrats H100 sont renouvelés directement jusqu’en 2028. »

Et qu’en est-il des puces Blackwell, plus avancées en architecture ? Les chercheurs indiquent que, en raison d’une forte demande pour les modèles à poids ouverts et d’une hausse continue des besoins en inférence, les cycles de livraison des nouveaux déploiements de Blackwell s’allongent désormais jusqu’à 6 à 7 mois.

À la fin de 2025, le marché s’attendait un temps à ce qu’avec l’accélération du déploiement des puces Blackwell, plus performantes et avec un coût de calcul plus faible, les prix de location des puces Hopper (H100, H200) puissent chuter fortement. Mais la situation actuelle est exactement l’inverse : désormais, la demande pour la H100 non seulement reste solide, mais, dans de nombreux cas, elle s’est même renforcée.

Dans son rapport, SemiAnalysis souligne que l’une des raisons importantes de la demande en capacité de calcul au début de cette année provient de la génération native de contenu médiatique. Par exemple, pendant que Seedance (c’est-à-dire Meng) de ByteDance et Nano Banana de Google incitent les utilisateurs à générer et à optimiser massivement des vidéos/images, cela fait bondir fortement le débit de jetons (token). La source de demande la plus marquante encore provient de l’essor des charges de travail multi-agents (multi-agent), qui pousse la consommation de jetons et de capacité de calcul à croître de façon parabolique.

SemiAnalysis indique que rien que leur propre entreprise « a consommé des dizaines de milliards de tokens sur la seule semaine passée », avec un coût d’environ 5 dollars par million de tokens. Néanmoins, l’entreprise se dit aussi très satisfaite : les bénéfices liés au temps économisé, ainsi qu’à l’expansion des flux de travail et des capacités, dépassent largement les coûts de capacité de calcul.

Le rapport souligne également que la dynamique de la contraction de l’offre en capacité de calcul et de la hausse des prix est déconnectée de l’humeur générale du marché. Les cours des actions de nouveaux fournisseurs cloud comme CoreWeave et Nebius se situent à l’extrémité basse de la fourchette sur 6 à 12 mois. Les analyses indiquent qu’actuellement, le marché reste ancré dans un cadre narratif selon lequel « il finira par y avoir un excès d’offre et une marchandisation de la capacité de calcul ». Mais la réalité est que, dans un contexte de pénurie d’offre agressive, presque toutes les catégories de ressources de calcul conserveront une forte demande—quelle que soit la différence de leurs performances relatives.

En perspective, les chercheurs donnent trois points clés à surveiller pour déterminer si les prix de location des GPU resteront à un niveau élevé.

D’abord, à mesure que les clusters GB300 se déploieront progressivement tout au long de 2026, le marché cherchera à savoir si la nouvelle capacité fournie pourra réellement atténuer la tension actuelle sur la capacité de calcul. Ensuite, il faut voir si la pénurie continue de puces va encore s’aggraver. Enfin, il faut aussi observer l’expansion des revenus récurrents annuels (ARR) des principaux géants de l’IA, ainsi que la vitesse de diffusion des applications d’IA et la cadence continue de la croissance de la taille de la consommation de tokens.

(Source : Caixin Global)

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler