Futures
Accédez à des centaines de contrats perpétuels
CFD
Or
Une plateforme pour les actifs mondiaux
Options
Hot
Tradez des options classiques de style européen
Compte unifié
Maximiser l'efficacité de votre capital
Trading démo
Introduction au trading futures
Préparez-vous à trader des contrats futurs
Événements futures
Participez aux événements et gagnez
Demo Trading
Utiliser des fonds virtuels pour faire l'expérience du trading sans risque
Lancer
CandyDrop
Collecte des candies pour obtenir des airdrops
Launchpool
Staking rapide, Gagnez de potentiels nouveaux jetons
HODLer Airdrop
Conservez des GT et recevez d'énormes airdrops gratuitement
IPO Access
Accédez à l'intégralité des introductions en bourse mondiales
Points Alpha
Tradez on-chain et gagnez des airdrops
Points Futures
Gagnez des points Futures et réclamez vos récompenses d’airdrop.
Investissement
Simple Earn
Gagner des intérêts avec des jetons inutilisés
Investissement automatique
Auto-invest régulier
Double investissement
Profitez de la volatilité du marché
Staking souple
Gagnez des récompenses grâce au staking flexible
Prêt Crypto
0 Fees
Mettre en gage un crypto pour en emprunter une autre
Centre de prêts
Centre de prêts intégré
Promotions
Centre d'activités
Participez et gagnez des récompenses
Parrainage
20 USDT
Invitez des amis et gagnez des récompenses
Programme d'affiliation
Obtenez des commissions exclusives
Gate Booster
Développez votre influence et gagnez des airdrops
Annoncement
Mises à jour en temps réel
Blog Gate
Articles sur le secteur de la crypto
AI
Gate AI
Votre assistant IA polyvalent pour toutes vos conversations
Gate AI Bot
Utilisez Gate AI directement dans votre application sociale
GateClaw
Gate Blue Lobster, prêt à l’emploi
Gate for AI Agent
Infrastructure IA, Gate MCP, Skills et CLI
Gate Skills Hub
+10K compétences
De la bureautique au trading, une bibliothèque de compétences tout-en-un pour exploiter pleinement l’IA
GateRouter
Choisissez intelligemment parmi plus de 40 modèles d’IA, avec 0 % de frais supplémentaires
Lorsque le raisonnement devient une ressource rare, qui en capture la valeur
null
Auteur original : Frank Fu
Source originale : IOSG Ventures
Le trou que David Cahn a évoqué en 2023 n’a jamais été comblé du côté de l’entraînement. Il a été comblé du côté de l’inférence, et le marché ne commence à l’intégrer dans la tarification que ces dernières semaines. Lorsque Nvidia a restructuré ses résultats autour du « token de service », que Cerebras a été introduit en bourse avec une sursouscription de 20 fois, la bataille pour le goulet d’étranglement est terminée, et la vraie question devient la suivante : lorsque l’inférence devient une ressource rare, à quelle couche de la pile de calcul la valeur se dépose-t-elle ?
Suivre le GPU : du problème de 200 milliards de dollars au problème de 600 milliards de dollars
En 2023, David Cahn de Sequoia a posé la question qui plane sur tout le développement de l’IA, à savoir le « problème de 200 milliards de dollars ». Chaque dollar dépensé pour un GPU nécessite environ un dollar supplémentaire pour l’alimenter dans un centre de données, ce qui signifie que chaque année, le CapEx GPU doit générer environ 200 milliards de dollars de revenus pour amortir cet investissement. Même en faisant des hypothèses très optimistes sur les revenus de l’IA, il a constaté qu’il existait un trou de plus de 1250 milliards de dollars entre « l’investissement » et « le paiement réel du client final ». La crainte est claire : le GPU est en train d’être surdimensionné par rapport à la demande réelle.
Un an plus tard, non seulement le trou ne s’est pas réduit, mais il s’est même élargi. Dans sa suite de 2024, avec l’expansion du CapEx des grands acteurs, Cahn redéfinit le problème en « problème de 600 milliards de dollars ». La logique pessimiste se résume à une forme familière : la surconstruction entraîne une surabondance d’offre, ce qui brûle le capital.
Les deux articles posent en réalité la même question : qui va combler ce trou ? La réponse n’a jamais été inscrite dans les livres de comptes du côté de l’« entraînement ». Elle apparaît du côté de l’« inference », et ce n’est que ces dernières semaines que le marché commence à l’intégrer dans la tarification.
Introduction en bourse de Cerebras et compression de l’inférence
Cerebras a été introduit en bourse jeudi. Cette IPO a été sursouscrite 20 fois, avec un prix proche du double de la dernière augmentation de prix de mercredi. La demande ne provient pas d’un pari sur « le prochain Nvidia », mais d’une prise de conscience plus simple : dans l’IA, le vrai goulet d’étranglement est l’inférence, pas l’entraînement.
La force de Cerebras réside dans une architecture de puces qui rend l’inférence extrêmement rapide. Ce n’est pas l’entraînement, c’est l’inférence. C’est précisément ce qui excite Wall Street. Le marché de l’inférence est récurrent, il s’étend avec l’utilisation. Chaque réponse de Claude, chaque tâche exécutée par un agent consomme de la puissance de calcul. L’entraînement ne se produit qu’une seule fois, l’inférence ne s’arrête jamais.
J.P. Morgan estime la taille du marché de l’inférence à 10 à 50 fois celle de l’entraînement. Lorsque les machines commencent à exécuter des tâches commandées par d’autres machines, c’est-à-dire dans une logique agentique, la demande d’inférence ne croît plus avec le nombre d’utilisateurs, mais avec la puissance de calcul elle-même.
Reconfiguration de Nvidia : l’inférence devient la priorité
Si Cerebras représente l’éveil du marché, le dernier trimestre de Nvidia en est la confirmation venant de la chaîne industrielle. Lors de la conférence téléphonique sur ses résultats, Jensen Huang a clarifié cette déclaration implicite : la demande en IA connaît une croissance par parabole. La raison est simple : l’IA agentique est arrivée. L’IA mainstream passe de l’inférence ponctuelle à la logique d’inférence, puis à l’étape où elle peut appeler ses outils et orchestrer ses tâches via des agents. Huang déclare : « Les tokens sont désormais rentables. » À l’ère de l’IA, la puissance de calcul est synonyme de revenus et de profits.
Cela bouleverse toute l’industrie. L’entraînement est un coût ponctuel pour construire un modèle, l’inférence est un coût opérationnel récurrent. Et le goulet d’étranglement actuel est l’inférence, pas l’entraînement.
Nvidia a intégré cette vision dans ses résultats. Elle la présente désormais selon deux plateformes, et non une : Data Center (centre de données) et Edge Computing (calcul en périphérie). Le centre de données (environ 75 milliards de dollars ce trimestre, +92 % en glissement annuel) se divise en Hyperscale (environ 38 milliards, +12 %) et ACIE, c’est-à-dire IA cloud, industriel et entreprise (environ 37 milliards, +31 %). Une nouvelle ligne apparaît : Edge Computing, avec 6,4 milliards de dollars, +29 %, couvrant l’IA agentique et l’IA physique en opération, comme les PC, stations de travail, stations de base AI-RAN, robots et voitures.
L’edge représente encore moins de 8 % du chiffre d’affaires total, mais Nvidia l’a placé au même niveau que le centre de données, comme une « deuxième plateforme ». Le signal est clair : l’inférence se divise en deux fronts, l’inférence cloud dans le centre de données, et l’inférence en périphérie, sur les endpoints, pour voir, déplacer et agir dans le monde physique. La feuille de route suit la même logique : à partir du troisième trimestre, la livraison de Vera Rubin, avec une capacité d’inférence jusqu’à 35 fois celle de Blackwell ; Huang a également présenté un nouveau TAM de 2000 milliards de dollars pour le CPU Vera, conçu pour supporter la charge agentique. Chaque entreprise de modèles de pointe prévoit de s’y tourner dès le premier jour.
Lorsque la société la plus valorisée de la planète a restructuré ses divulgations financières autour du « token de service », la bataille pour le goulet d’étranglement a été définitivement tranchée. La suite de cet article discute de qui capte la valeur lorsque l’inférence (et non l’entraînement) devient une ressource rare.
Pour commencer, précisons le périmètre. Dans ces deux fronts, l’article traite de l’inférence cloud, c’est-à-dire des services API token fournis par des GPU de centres de données loués. L’inférence en endpoint s’exécute sur des puces locales intégrées dans les appareils (Nvidia Jetson, RTX, Drive, AI-RAN), sans passer par la chaîne de location et d’agrégation GPU sous-jacente. Considérez cela comme une amplification de l’économie de l’inférence, une confirmation du raisonnement sur le goulet, plutôt que le marché hyperbolique ou Venice, qui opèrent entièrement dans le cloud.
La compression est en marche
Anthropic est le canari dans la mine. La demande dépasse largement la capacité initiale, et les plaintes de « brain leaf removal » pour Claude envahissent Internet : réponses limitées, inférence ralentie, fenêtres contextuelles comprimées. La solution est brute : la puissance de calcul. En mai 2026, Anthropic a repris le centre de données Colossus 1 de SpaceX, avec plus de 220 000 GPU Nvidia et plus de 300 MW, dédié à l’inférence, pas à l’entraînement.
Cette capacité a permis une série de changements de quotas, chaque fois un signal. Le 6 mai, Anthropic a doublé le quota de Claude Code sur cinq heures, supprimé la limitation en période de pointe, et augmenté considérablement la limite API d’Opus. Le 13 mai, le quota hebdomadaire de Claude Code a été augmenté de 50 % (jusqu’au 13 juillet). Ensuite, à partir du 15 juin, la société a fait l’inverse : elle a séparé l’utilisation agentique et scriptée (Agent SDK, mode sans tête claude -p, pipeline CI) du modèle de souscription plate, en le plaçant dans un pool de crédits distincts (20 à 200 dollars par mois, facturés au prix API). La dernière étape a résumé la logique : la vitesse de consommation de l’inférence par les agents dépasse la capacité de la souscription plate, ce qui impose de la tarifer comme un coût opérationnel récurrent.
L’entraînement est un investissement ponctuel. L’inférence est un coût opérationnel récurrent, qui s’accumule en fonction de chaque nouvel utilisateur, de chaque nouvel agent.
Ce modèle : six couches, un goulet d’étranglement
Chaque application IA repose sur une chaîne d’approvisionnement allant de la fabrication des wafers TSMC à l’API en bout de course :
La plupart des entreprises ne possèdent qu’une seule couche. Nvidia détient la silicon, CoreWeave possède le matériel nu, Together AI optimise l’inférence, OpenRouter gère le routage des modèles API.
Une seule exception.
Hyperbolic : la seule entreprise couvrant trois couches
Hyperbolic a lancé son marché GPU à la demande en juin 2025. En quelques mois, le nombre de développeurs a dépassé 200 000, couvrant des laboratoires IA de pointe, la recherche, et de grandes plateformes grand public.
Ce qui est intéressant, c’est son architecture.
Hyperbolic ne possède pas ses propres GPU. Chaque carte provient de neocloud et de centres de données, y compris CoreWeave, Lambda Labs, Nebius, et d’opérateurs plus petits avec des capacités inutilisées. Cela peut sembler un point faible, mais c’est en réalité une barrière protectrice.
En se plaçant entre l’offre et la demande de GPU, Hyperbolic peut voir des données en temps réel que d’autres ne peuvent pas. Elle sait qui achète quoi, à quel prix, et quand. Elle voit cela avant que la surabondance ne devienne publique, et avant que la demande ne fasse flamber le marché.
Aujourd’hui, cette barrière est devenue la consolidation multi-cloud. Hyperbolic assemble la capacité fragmentée de dizaines de clouds et centres de données en un pool standardisé et unifié, permettant aux développeurs de louer les GPU les moins chers sans négocier avec chaque opérateur ni gérer une multitude de comptes. Plus elle connecte de clouds, plus la liquidité est profonde, et plus les données de tarification sont riches. À terme, l’équipe explore comment modéliser ces données pour prévoir la courbe des prix GPU, et éventuellement utiliser ses propres capitaux pour lisser l’offre et la demande, jouant le rôle de market maker en puissance pour la puissance physique ; mais cet objectif est encore à ses débuts, et la véritable croissance à court terme réside dans la couche d’agrégation.
C’est la roue motrice :
Connecter plus de clouds → Plus d’offre agrégée
Plus d’offre → Marché plus profond et tarification en temps réel
Meilleures données → Routage plus intelligent aujourd’hui, modèles de tarification à long terme
Meilleure liquidité et prix → Plus de développeurs → Plus de clouds souhaitant se connecter
Aucune autre entreprise ne tente cette approche. Hyperbolic est la seule à couvrir simultanément la location GPU, la couche de déploiement et la couche API modèle.
Venice, ce miroir
Venice représente la manifestation la plus claire de l’économie de l’inférence au niveau applicatif, et constitue un contrepoint utile à la position d’Hyperbolic. C’est une application d’inférence axée sur la confidentialité : une API compatible OpenAI, avec des abonnements pour les consommateurs (Free / Pro / Pro+ / Max), qui route les requêtes vers environ 75 modèles, dont environ deux tiers open source ou auto-hébergés (Llama, Mistral, Qwen, DeepSeek), et le reste des modèles de pointe fermés en mode anonyme. L’essentiel est que Venice ne possède pas de capacité de calcul significative. Elle loue ses GPU auprès de partenaires non divulgués et de fournisseurs de calcul confidentiel (NEAR AI Cloud, Phala), et paie des laboratoires de recherche pour faire du passthrough, ce qui signifie que son coût de revient est basé sur la puissance d’inférence, et non sur l’hébergement SaaS.
Venice vend surtout la confidentialité. La « confidentialité » ici ne consiste pas à transformer la capacité publique en propriété privée, mais à ajouter une couche de garantie à l’inférence commercialisée : pas de stockage des données, pas d’utilisation pour l’entraînement, requêtes anonymisées, une partie de la charge de travail s’exécute dans des environnements TEE, empêchant même l’opérateur de voir le contenu en clair. La capacité de calcul sous-jacente est standard, mais la valeur ajoutée réside dans cette couche de privacy. Et cette couche n’est pas homogène : pour les modèles open source tournant sur des GPU contrôlés ou dans des TEE, on peut atteindre un quasi-calcul confidentiel de bout en bout ; pour les modèles fermés comme Claude ou GPT, l’anonymisation ne fait que retirer l’identité, mais le prompt original reste accessible à l’expéditeur dans la chaîne. La confidentialité la plus forte couvre donc la partie open source, tandis que pour les modèles fermés, l’anonymisation n’est qu’un retrait d’identité, pas une véritable confidentialité. La marge de Venice = prix de l’abonnement − coût d’inférence vers le bas, et la part supplémentaire qu’elle peut facturer par rapport à une API brute repose presque entièrement sur cette prime de privacy, ce qui explique sa faible rentabilité et sa dépendance aux prix de passthrough des modèles de pointe.
Le design du token intègre cette demande d’inférence. Venice fonctionne avec deux tokens : VVV (stakage et accès plateforme) et DIEM, ce dernier étant un crédit d’inférence, où un DIEM équivaut à environ un dollar de puissance de calcul par jour. Les abonnements payants entraînent des rachats et destructions programmés de VVV (Pro / Pro+ / Max respectivement 2 / 5 / 10 dollars), avec une émission qui diminue selon un calendrier fixe : 6 millions par mois, puis 5 millions, puis 4 millions VVV, et une réduction à 3 millions à partir du 1er juillet. Les rachats sont réels, mais discrétionnaires et modestes : en avril et mai, environ 103 000 dollars ont été détruits, en juin, la destruction s’accélère lentement vers 110 000 dollars, bien en dessous de la ligne de 200 000 dollars par mois.
Les fondamentaux sont plus sains que le titre. Le chiffre « 70 millions de dollars ARR » qui circule est presque certainement une erreur d’interprétation, confondant renouvellement d’abonnement et acquisition nette. La fourchette observable crédible se situe plutôt entre 6 et 15 millions de dollars ARR. En dessous, la traction est réelle : environ 136 000 adresses de portefeuilles, environ 9,9 millions de visites mensuelles sur le site (environ 330 000 par jour), et environ 1 400 nouvelles souscriptions Pro par jour. C’est une vraie entreprise, mais une entreprise à faible marge, dont la rentabilité dépend de la puissance de calcul qu’elle achète.
C’est précisément la position d’Hyperbolic par rapport à Venice. Si Venice est une station-service, Hyperbolic est une raffinerie. Venice achète la puissance de calcul dans une offre limitée et commune à tous ; Hyperbolic agrège, standardise cette offre fragmentée, et la revend à Venice et à tous ses semblables. Avec la croissance de la demande d’inférence, la valeur ne s’accumule pas seulement dans l’application consommant la puissance, mais aussi dans l’agrégation, le routage, et la capture de la couche de coût de revient que ces applications paient.
Pourquoi cela est-il important maintenant ?
Nvidia a restructuré ses finances autour du « token de service ». L’IPO de Cerebras a prouvé que le marché a compris que l’inférence est le goulet d’étranglement. Anthropic, en cherchant à augmenter sa capacité, confirme que c’est un problème réel. La demande agentique et physique va multiplier par plusieurs ordres de grandeur, en traversant les deux fronts cloud et périphérie.
Et cela boucle la boucle du « problème de 600 milliards de dollars ». La logique pessimiste de Cahn, à savoir la surconstruction puis la surabondance, sera probablement confirmée. Mais la surabondance est justement la meilleure situation pour les agrégateurs à faible capital : lorsque le prix des GPU baisse, que l’offre se fragmentise sur plusieurs dizaines de clouds, celui qui ne possède pas de hardware mais qui route chaque charge de travail vers la carte la moins chère peut réaliser une marge, tandis que les opérateurs détenant des GPU dépréciés supportent la perte. Hyperbolic mise sur la surabondance, pas sur la pénurie.
La société qui sortira gagnante ne sera pas celle qui possède le plus de GPU, mais celle qui pourra indiquer où se trouvent quels GPU, à quel prix, et qui pourra router chaque charge de travail vers le lieu où elle sera la moins coûteuse à faire tourner.
Hyperbolic construit cette société. Elle ne possède pas ses GPU, fonctionne uniquement en logiciel, couvre trois couches, mais vise à devenir la couche ultime d’agrégation pour l’inférence.