Le trou que David Cahn a évoqué en 2023 n’a jamais été comblé du côté de l’entraînement. Il a été comblé du côté de l’inférence, et le marché ne commence à l’intégrer dans la tarification que ces dernières semaines. Lorsque Nvidia a restructuré ses résultats autour du « token de service », que Cerebras a été introduit en bourse avec une sursouscription de 20 fois, la bataille pour le goulet d’étranglement est terminée, et la vraie question devient la suivante : lorsque l’inférence devient une ressource rare, à quelle couche de la pile de calcul la valeur se dépose-t-elle ?

Suivre le GPU : du problème de 200 milliards de dollars au problème de 600 milliards de dollars

En 2023, David Cahn de Sequoia a posé la question qui plane sur tout le développement de l’IA, à savoir le « problème de 200 milliards de dollars ». Chaque dollar dépensé pour un GPU nécessite environ un dollar supplémentaire pour l’alimenter dans un centre de données, ce qui signifie que chaque année, le CapEx GPU doit générer environ 200 milliards de dollars de revenus pour amortir cet investissement. Même en faisant des hypothèses très optimistes sur les revenus de l’IA, il a constaté qu’il existait un trou de plus de 1250 milliards de dollars entre « l’investissement » et « le paiement réel du client final ». La crainte est claire : le GPU est en train d’être surdimensionné par rapport à la demande réelle.

Un an plus tard, non seulement le trou ne s’est pas réduit, mais il s’est même élargi. Dans sa suite de 2024, avec l’expansion du CapEx des grands acteurs, Cahn redéfinit le problème en « problème de 600 milliards de dollars ». La logique pessimiste se résume à une forme familière : la surconstruction entraîne une surabondance d’offre, ce qui brûle le capital.

Les deux articles posent en réalité la même question : qui va combler ce trou ? La réponse n’a jamais été inscrite dans les livres de comptes du côté de l’« entraînement ». Elle apparaît du côté de l’« inference », et ce n’est que ces dernières semaines que le marché commence à l’intégrer dans la tarification.

Introduction en bourse de Cerebras et compression de l’inférence

Cerebras a été introduit en bourse jeudi. Cette IPO a été sursouscrite 20 fois, avec un prix proche du double de la dernière augmentation de prix de mercredi. La demande ne provient pas d’un pari sur « le prochain Nvidia », mais d’une prise de conscience plus simple : dans l’IA, le vrai goulet d’étranglement est l’inférence, pas l’entraînement.

La force de Cerebras réside dans une architecture de puces qui rend l’inférence extrêmement rapide. Ce n’est pas l’entraînement, c’est l’inférence. C’est précisément ce qui excite Wall Street. Le marché de l’inférence est récurrent, il s’étend avec l’utilisation. Chaque réponse de Claude, chaque tâche exécutée par un agent consomme de la puissance de calcul. L’entraînement ne se produit qu’une seule fois, l’inférence ne s’arrête jamais.

J.P. Morgan estime la taille du marché de l’inférence à 10 à 50 fois celle de l’entraînement. Lorsque les machines commencent à exécuter des tâches commandées par d’autres machines, c’est-à-dire dans une logique agentique, la demande d’inférence ne croît plus avec le nombre d’utilisateurs, mais avec la puissance de calcul elle-même.

Reconfiguration de Nvidia : l’inférence devient la priorité

Si Cerebras représente l’éveil du marché, le dernier trimestre de Nvidia en est la confirmation venant de la chaîne industrielle. Lors de la conférence téléphonique sur ses résultats, Jensen Huang a clarifié cette déclaration implicite : la demande en IA connaît une croissance par parabole. La raison est simple : l’IA agentique est arrivée. L’IA mainstream passe de l’inférence ponctuelle à la logique d’inférence, puis à l’étape où elle peut appeler ses outils et orchestrer ses tâches via des agents. Huang déclare : « Les tokens sont désormais rentables. » À l’ère de l’IA, la puissance de calcul est synonyme de revenus et de profits.

Cela bouleverse toute l’industrie. L’entraînement est un coût ponctuel pour construire un modèle, l’inférence est un coût opérationnel récurrent. Et le goulet d’étranglement actuel est l’inférence, pas l’entraînement.

Nvidia a intégré cette vision dans ses résultats. Elle la présente désormais selon deux plateformes, et non une : Data Center (centre de données) et Edge Computing (calcul en périphérie). Le centre de données (environ 75 milliards de dollars ce trimestre, +92 % en glissement annuel) se divise en Hyperscale (environ 38 milliards, +12 %) et ACIE, c’est-à-dire IA cloud, industriel et entreprise (environ 37 milliards, +31 %). Une nouvelle ligne apparaît : Edge Computing, avec 6,4 milliards de dollars, +29 %, couvrant l’IA agentique et l’IA physique en opération, comme les PC, stations de travail, stations de base AI-RAN, robots et voitures.

L’edge représente encore moins de 8 % du chiffre d’affaires total, mais Nvidia l’a placé au même niveau que le centre de données, comme une « deuxième plateforme ». Le signal est clair : l’inférence se divise en deux fronts, l’inférence cloud dans le centre de données, et l’inférence en périphérie, sur les endpoints, pour voir, déplacer et agir dans le monde physique. La feuille de route suit la même logique : à partir du troisième trimestre, la livraison de Vera Rubin, avec une capacité d’inférence jusqu’à 35 fois celle de Blackwell ; Huang a également présenté un nouveau TAM de 2000 milliards de dollars pour le CPU Vera, conçu pour supporter la charge agentique. Chaque entreprise de modèles de pointe prévoit de s’y tourner dès le premier jour.

Lorsque la société la plus valorisée de la planète a restructuré ses divulgations financières autour du « token de service », la bataille pour le goulet d’étranglement a été définitivement tranchée. La suite de cet article discute de qui capte la valeur lorsque l’inférence (et non l’entraînement) devient une ressource rare.

Pour commencer, précisons le périmètre. Dans ces deux fronts, l’article traite de l’inférence cloud, c’est-à-dire des services API token fournis par des GPU de centres de données loués. L’inférence en endpoint s’exécute sur des puces locales intégrées dans les appareils (Nvidia Jetson, RTX, Drive, AI-RAN), sans passer par la chaîne de location et d’agrégation GPU sous-jacente. Considérez cela comme une amplification de l’économie de l’inférence, une confirmation du raisonnement sur le goulet, plutôt que le marché hyperbolique ou Venice, qui opèrent entièrement dans le cloud.

La compression est en marche

Anthropic est le canari dans la mine. La demande dépasse largement la capacité initiale, et les plaintes de « brain leaf removal » pour Claude envahissent Internet : réponses limitées, inférence ralentie, fenêtres contextuelles comprimées. La solution est brute : la puissance de calcul. En mai 2026, Anthropic a repris le centre de données Colossus 1 de SpaceX, avec plus de 220 000 GPU Nvidia et plus de 300 MW, dédié à l’inférence, pas à l’entraînement.

Cette capacité a permis une série de changements de quotas, chaque fois un signal. Le 6 mai, Anthropic a doublé le quota de Claude Code sur cinq heures, supprimé la limitation en période de pointe, et augmenté considérablement la limite API d’Opus. Le 13 mai, le quota hebdomadaire de Claude Code a été augmenté de 50 % (jusqu’au 13 juillet). Ensuite, à partir du 15 juin, la société a fait l’inverse : elle a séparé l’utilisation agentique et scriptée (Agent SDK, mode sans tête claude -p, pipeline CI) du modèle de souscription plate, en le plaçant dans un pool de crédits distincts (20 à 200 dollars par mois, facturés au prix API). La dernière étape a résumé la logique : la vitesse de consommation de l’inférence par les agents dépasse la capacité de la souscription plate, ce qui impose de la tarifer comme un coût opérationnel récurrent.

L’entraînement est un investissement ponctuel. L’inférence est un coût opérationnel récurrent, qui s’accumule en fonction de chaque nouvel utilisateur, de chaque nouvel agent.

Ce modèle : six couches, un goulet d’étranglement

Chaque application IA repose sur une chaîne d’approvisionnement allant de la fabrication des wafers TSMC à l’API en bout de course :

La plupart des entreprises ne possèdent qu’une seule couche. Nvidia détient la silicon, CoreWeave possède le matériel nu, Together AI optimise l’inférence, OpenRouter gère le routage des modèles API.

Une seule exception.

Hyperbolic : la seule entreprise couvrant trois couches

Hyperbolic a lancé son marché GPU à la demande en juin 2025. En quelques mois, le nombre de développeurs a dépassé 200 000, couvrant des laboratoires IA de pointe, la recherche, et de grandes plateformes grand public.

Ce qui est intéressant, c’est son architecture.

Hyperbolic ne possède pas ses propres GPU. Chaque carte provient de neocloud et de centres de données, y compris CoreWeave, Lambda Labs, Nebius, et d’opérateurs plus petits avec des capacités inutilisées. Cela peut sembler un point faible, mais c’est en réalité une barrière protectrice.

En se plaçant entre l’offre et la demande de GPU, Hyperbolic peut voir des données en temps réel que d’autres ne peuvent pas. Elle sait qui achète quoi, à quel prix, et quand. Elle voit cela avant que la surabondance ne devienne publique, et avant que la demande ne fasse flamber le marché.

Aujourd’hui, cette barrière est devenue la consolidation multi-cloud. Hyperbolic assemble la capacité fragmentée de dizaines de clouds et centres de données en un pool standardisé et unifié, permettant aux développeurs de louer les GPU les moins chers sans négocier avec chaque opérateur ni gérer une multitude de comptes. Plus elle connecte de clouds, plus la liquidité est profonde, et plus les données de tarification sont riches. À terme, l’équipe explore comment modéliser ces données pour prévoir la courbe des prix GPU, et éventuellement utiliser ses propres capitaux pour lisser l’offre et la demande, jouant le rôle de market maker en puissance pour la puissance physique ; mais cet objectif est encore à ses débuts, et la véritable croissance à court terme réside dans la couche d’agrégation.

C’est la roue motrice :

Connecter plus de clouds → Plus d’offre agrégée

Plus d’offre → Marché plus profond et tarification en temps réel

Meilleures données → Routage plus intelligent aujourd’hui, modèles de tarification à long terme

Meilleure liquidité et prix → Plus de développeurs → Plus de clouds souhaitant se connecter

Aucune autre entreprise ne tente cette approche. Hyperbolic est la seule à couvrir simultanément la location GPU, la couche de déploiement et la couche API modèle.

Venice, ce miroir

Venice représente la manifestation la plus claire de l’économie de l’inférence au niveau applicatif, et constitue un contrepoint utile à la position d’Hyperbolic. C’est une application d’inférence axée sur la confidentialité : une API compatible OpenAI, avec des abonnements pour les consommateurs (Free / Pro / Pro+ / Max), qui route les requêtes vers environ 75 modèles, dont environ deux tiers open source ou auto-hébergés (Llama, Mistral, Qwen, DeepSeek), et le reste des modèles de pointe fermés en mode anonyme. L’essentiel est que Venice ne possède pas de capacité de calcul significative. Elle loue ses GPU auprès de partenaires non divulgués et de fournisseurs de calcul confidentiel (NEAR AI Cloud, Phala), et paie des laboratoires de recherche pour faire du passthrough, ce qui signifie que son coût de revient est basé sur la puissance d’inférence, et non sur l’hébergement SaaS.

Venice vend surtout la confidentialité. La « confidentialité » ici ne consiste pas à transformer la capacité publique en propriété privée, mais à ajouter une couche de garantie à l’inférence commercialisée : pas de stockage des données, pas d’utilisation pour l’entraînement, requêtes anonymisées, une partie de la charge de travail s’exécute dans des environnements TEE, empêchant même l’opérateur de voir le contenu en clair. La capacité de calcul sous-jacente est standard, mais la valeur ajoutée réside dans cette couche de privacy. Et cette couche n’est pas homogène : pour les modèles open source tournant sur des GPU contrôlés ou dans des TEE, on peut atteindre un quasi-calcul confidentiel de bout en bout ; pour les modèles fermés comme Claude ou GPT, l’anonymisation ne fait que retirer l’identité, mais le prompt original reste accessible à l’expéditeur dans la chaîne. La confidentialité la plus forte couvre donc la partie open source, tandis que pour les modèles fermés, l’anonymisation n’est qu’un retrait d’identité, pas une véritable confidentialité. La marge de Venice = prix de l’abonnement − coût d’inférence vers le bas, et la part supplémentaire qu’elle peut facturer par rapport à une API brute repose presque entièrement sur cette prime de privacy, ce qui explique sa faible rentabilité et sa dépendance aux prix de passthrough des modèles de pointe.

Le design du token intègre cette demande d’inférence. Venice fonctionne avec deux tokens : VVV (stakage et accès plateforme) et DIEM, ce dernier étant un crédit d’inférence, où un DIEM équivaut à environ un dollar de puissance de calcul par jour. Les abonnements payants entraînent des rachats et destructions programmés de VVV (Pro / Pro+ / Max respectivement 2 / 5 / 10 dollars), avec une émission qui diminue selon un calendrier fixe : 6 millions par mois, puis 5 millions, puis 4 millions VVV, et une réduction à 3 millions à partir du 1er juillet. Les rachats sont réels, mais discrétionnaires et modestes : en avril et mai, environ 103 000 dollars ont été détruits, en juin, la destruction s’accélère lentement vers 110 000 dollars, bien en dessous de la ligne de 200 000 dollars par mois.

Les fondamentaux sont plus sains que le titre. Le chiffre « 70 millions de dollars ARR » qui circule est presque certainement une erreur d’interprétation, confondant renouvellement d’abonnement et acquisition nette. La fourchette observable crédible se situe plutôt entre 6 et 15 millions de dollars ARR. En dessous, la traction est réelle : environ 136 000 adresses de portefeuilles, environ 9,9 millions de visites mensuelles sur le site (environ 330 000 par jour), et environ 1 400 nouvelles souscriptions Pro par jour. C’est une vraie entreprise, mais une entreprise à faible marge, dont la rentabilité dépend de la puissance de calcul qu’elle achète.

C’est précisément la position d’Hyperbolic par rapport à Venice. Si Venice est une station-service, Hyperbolic est une raffinerie. Venice achète la puissance de calcul dans une offre limitée et commune à tous ; Hyperbolic agrège, standardise cette offre fragmentée, et la revend à Venice et à tous ses semblables. Avec la croissance de la demande d’inférence, la valeur ne s’accumule pas seulement dans l’application consommant la puissance, mais aussi dans l’agrégation, le routage, et la capture de la couche de coût de revient que ces applications paient.

Pourquoi cela est-il important maintenant ?

Nvidia a restructuré ses finances autour du « token de service ». L’IPO de Cerebras a prouvé que le marché a compris que l’inférence est le goulet d’étranglement. Anthropic, en cherchant à augmenter sa capacité, confirme que c’est un problème réel. La demande agentique et physique va multiplier par plusieurs ordres de grandeur, en traversant les deux fronts cloud et périphérie.

Et cela boucle la boucle du « problème de 600 milliards de dollars ». La logique pessimiste de Cahn, à savoir la surconstruction puis la surabondance, sera probablement confirmée. Mais la surabondance est justement la meilleure situation pour les agrégateurs à faible capital : lorsque le prix des GPU baisse, que l’offre se fragmentise sur plusieurs dizaines de clouds, celui qui ne possède pas de hardware mais qui route chaque charge de travail vers la carte la moins chère peut réaliser une marge, tandis que les opérateurs détenant des GPU dépréciés supportent la perte. Hyperbolic mise sur la surabondance, pas sur la pénurie.

La société qui sortira gagnante ne sera pas celle qui possède le plus de GPU, mais celle qui pourra indiquer où se trouvent quels GPU, à quel prix, et qui pourra router chaque charge de travail vers le lieu où elle sera la moins coûteuse à faire tourner.

Hyperbolic construit cette société. Elle ne possède pas ses GPU, fonctionne uniquement en logiciel, couvre trois couches, mais vise à devenir la couche ultime d’agrégation pour l’inférence.

VVV-5,56%

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

1 J'aime

Récompense
1
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
StrategyAdds1550BTCatLowerPrices
2.88M Popularité
#
IsraelStrikesIranBTCPlunges
56.62K Popularité
#
SpaceXIPOSeesStrongOversubscription
1.44M Popularité
#
StrongNonfarmPayrollsRekindleRateHikeFear
1.82M Popularité
#
PredictNBAChampionWin20000U
186.39K Popularité

Épinglé

Lorsque le raisonnement devient une ressource rare, qui en capture la valeur

Sujets populaires

StrategyAdds1550BTCatLowerPrices

IsraelStrikesIranBTCPlunges

SpaceXIPOSeesStrongOversubscription

StrongNonfarmPayrollsRekindleRateHikeFear

PredictNBAChampionWin20000U

Épinglé