SemiAnalysis : De l'infrastructure à la couche de modèles, le transfert de richesse sur la chaîne de valeur de l'IA s'accélère.

L'épicentre de la valeur dans l'industrie de l'IA connaît une transformation structurelle.

Au cours des deux dernières années, NVIDIA, les fabricants de mémoire et les fournisseurs d'énergie ont dominé la répartition des retours sur investissement dans l'IA. Mais avec l'accélération de la commercialisation de l'IA agentielle, la marge bénéficiaire au niveau des modèles s'élargit à une vitesse sans précédent, tandis que NVIDIA et TSMC, qui contrôlent l'offre de puissance de calcul, n'ont pas encore pleinement reflété cette tendance dans leur tarification.

Anthropic est l'illustration la plus directe de ce changement. Selon la dernière étude de SemiAnalysis, le revenu annualisé (ARR) d'Anthropic est passé de 9 milliards de dollars au début de l'année à plus de 44 milliards de dollars, et sa marge brute sur l'infrastructure d'inférence est passée de 38 % à plus de 70 % sur la même période. Parallèlement, le coût de production des tokens a été considérablement réduit grâce à l'itération matérielle et à l'optimisation logicielle, l'écart entre la valeur et le coût se creusant continuellement, propulsant les fabricants de modèles dans une nouvelle phase de croissance rapide des marges.

Du côté de l'offre, NVIDIA et TSMC détiennent les ressources les plus rares, mais n'ont pas encore ajusté leurs prix de manière adéquate face à la demande actuelle. SemiAnalysis estime que ce décalage de prix constitue un déséquilibre majeur du marché : les systèmes de nouvelle génération, comme Vera Rubin (VR NVL72), offrent une marge significative d'augmentation des prix, et celui qui saura tirer parti de cette redistribution de la valeur influencera profondément la logique d'investissement dans chaque maillon de la chaîne industrielle de l'IA.

Le parcours de trois ans du pool de valeur de l'IA

Entre 2023 et 2025, les rendements excédentaires des investissements dans l'IA se sont principalement concentrés dans la couche d'infrastructure.

En mai 2023, NVIDIA a publié pour la première fois des résultats exceptionnels, avec une hausse de 25 % après la clôture, inaugurant officiellement la vague d'investissement dans l'IA. En 2024, Vistra et GE Vernova ont respectivement augmenté de 265 % et 146 %, devenant les actions les plus performantes du S&P 500, le goulot d'étranglement énergétique devenant le centre d'intérêt du marché. En 2025, le secteur de la mémoire a pris le relais, avec SanDisk, Western Digital, Seagate et Micron enregistrant tous des gains annuels de plus de 200 %, le déséquilibre entre l'offre et la demande de stockage devenant la variable clé de la tarification.

Parallèlement, les marges brutes des fabricants de modèles et des fournisseurs de services d'inférence sont restées sous pression pendant longtemps. À l'époque, l'utilité réelle de l'IA était considérée par les critiques comme n'étant « rien de plus qu'un meilleur Google Search » avec une interface de chat, en contradiction flagrante avec les attentes d'investissement de plusieurs milliers de milliards de dollars.

Cette configuration a connu un changement fondamental à la fin de l'année 2025.

IA agentielle : le point de bascule qui redéfinit l'économie des tokens

SemiAnalysis considère décembre 2025 comme le véritable point de bascule de la commercialisation de l'IA : l'IA agentielle a commencé à fonctionner de manière stable et à se déployer à grande échelle dans les flux de travail des entreprises. Le sens fondamental de ce changement réside dans le fait qu'il a radicalement transformé la valeur économique des tokens.

Prenons l'exemple de SemiAnalysis lui-même : ses dépenses annualisées en tokens représentent désormais environ 30 % du total des salaires des employés, chaque employé consommant plus de 5 milliards de tokens par mois, soit plus de 5 fois le niveau moyen par employé chez Meta. L'équipe de recherche a cité plusieurs cas réels : des travaux de modélisation financière, de création de graphiques et d'analyse de rentabilité qui nécessitaient auparavant plusieurs heures d'un analyste junior sont désormais réalisés par des agents à un coût en tokens très faible, alors que le coût de la main-d'œuvre équivalente pouvait atteindre des centaines, voire des milliers de dollars.

Parallèlement, le coût de production des tokens diminue rapidement. SemiAnalysis estime que, dans les scénarios de tâches agentielles, le prix mixte réel d'exécution d'Opus 4.7 est d'environ 0,99 $ par million de tokens, bien loin du prix officiel de 5 $/25 $, en raison du rapport entrée/sortie très élevé des charges de travail agentielles (environ 300:1) et d'un taux de cache hit supérieur à 90 %, une grande partie des tokens tombant dans la tranche de prix la plus basse.

L'accélération au niveau matériel est tout aussi significative. Par rapport au H100 d'il y a un an, la série Blackwell peut générer environ 30 fois plus de tokens par seconde dans les charges de travail de pointe. Une comparaison plus poussée montre que, dans des conditions optimales, le GB300 NVL72 offre un débit environ 17 fois supérieur à celui du H100 optimisé en précision FP8, et ce rapport passe à 32 fois en passant à FP4, tandis que le coût total de possession (TCO) n'est supérieur que d'environ 70 %.

L'écart croissant entre la valeur et le coût est le moteur central de l'augmentation de la marge brute d'Anthropic, passée de 38 % à plus de 70 %.

Pouvoir de fixation des prix au niveau des modèles : pourquoi il ne sera pas érodé par la concurrence

Face à l'expansion rapide des marges bénéficiaires des fabricants de modèles, la question la plus courante sur le marché est : la concurrence finira par faire baisser les prix. SemiAnalysis émet des réserves à ce sujet et avance deux arguments.

Premièrement, le pouvoir de fixation des prix des modèles fermés de pointe reste solide. Bien que les performances des modèles open source sur les benchmarks ne cessent d'être améliorées, dans les scénarios réels de travail du savoir, leurs performances restent nettement inférieures à celles des modèles fermés de pointe. Prenons l'exemple de Kimi K2.6 (prix 0,95 $/4 $) : la pression à la baisse qu'il exerce sur le prix d'Anthropic Opus est très limitée.

Deuxièmement, les contraintes de puissance de calcul signifient qu'aucun laboratoire de pointe ne peut à lui seul satisfaire l'ensemble de la demande du marché. Anthropic a déjà commencé à gérer activement la demande en plafonnant Claude Code derrière un abonnement mensuel supérieur à 100 $ et en limitant l'accès des tiers. La demande de tokens continuera de dépasser l'offre dans un avenir prévisible. Cette rareté structurelle donne aux fabricants de modèles de pointe la confiance nécessaire pour fixer les prix en fonction de la valeur plutôt que du coût.

Anthropic a déjà concrétisé cette logique à travers sa stratégie de gamme de produits : Opus fast est six fois plus cher que Opus standard, le prochain Mythos sera proposé à 25 $/125 $, soit cinq fois le prix d'Opus standard, et les clients entreprises les plus importants sont prêts à payer pour ces SKU haut de gamme. SemiAnalysis indique que si Anthropic fixait le prix de Mythos fast à 150 $/750 $, il serait lui-même un utilisateur payant.

NVIDIA et TSMC : le décalage de prix des ressources rares

Cependant, les deux entreprises qui contrôlent les ressources les plus rares – NVIDIA et TSMC – n'ont pas pleinement suivi cette vague de réévaluation de la valeur.

La capacité de production du procédé avancé N3 de TSMC est devenue le goulot d'étranglement le plus serré de l'expansion de la puissance de calcul de l'IA. NVIDIA, Broadcom, Annapurna, MediaTek et AMD se disputent tous des quotas de wafers N3 limités, et le taux d'utilisation de la capacité N3 devrait dépasser 100 % au second semestre 2026. Le taux d'utilisation des usines de wafers DRAM a déjà dépassé 90 %, l'offre globale de mémoire est tendue, mais les prix restent relativement prudents.

SemiAnalysis estime que TSMC est tout à fait en mesure d'augmenter considérablement ses prix, et non seulement les clients accepteraient, mais certains clients accueilleraient même favorablement cette hausse – NVIDIA en est un exemple typique : si une hausse des prix de TSMC signifie que ses concurrents obtiennent moins de quotas de capacité, NVIDIA, en payant un prix de wafer plus élevé, pourrait en fait renforcer sa position sur le marché. Le PDG de NVIDIA, Jensen Huang, a publiquement déclaré en 2024 que TSMC devrait augmenter ses prix de wafers, et la logique sous-jacente est précisément celle-ci.

La stratégie de prix de NVIDIA elle-même présente une tendance similaire à la prudence. SemiAnalysis souligne que le cadre de tarification de NVIDIA est encore ancré dans l'hypothèse précédente selon laquelle « le prix que l'on est prêt à payer par unité de puissance de calcul diminue avec le temps », mais cette hypothèse n'est plus valable. Avec l'explosion des charges de travail agentielles, la demande de puissance de calcul n'est plus linéaire, mais suit une accélération composée.

Système Rubin : quantifier la marge de manœuvre tarifaire de NVIDIA

En prenant comme référence le Vera Rubin (VR NVL72) qui devrait être lancé au second semestre 2026, SemiAnalysis a construit un cadre d'analyse de tarification « Un graphique pour les gouverner tous », qui ancre respectivement le plancher et le plafond de la tarification de la location du point de vue du coût et de la valeur.

Du côté du coût (plancher) : basé sur le seuil de déploiement d'un projet Neocloud (fournisseur de cloud émergent) avec un taux de rendement interne (TRI) d'au moins 15,6 %, le loyer minimum par GPU et par heure pour le VR NVL72 doit atteindre environ 4,92 $ pour maintenir la volonté de déploiement du Neocloud.

Du côté de la valeur (plafond) : en prenant comme point d'ancrage le loyer actuel du GB300 pour un contrat de 5 ans, d'environ 0,70 $ par PFLOP, le plafond de loyer correspondant pour le VR NVL72 est d'environ 12,25 $ par GPU et par heure.

Actuellement, la tarification du système VR NVL72 ne réduit le coût par PFLOP qu'à environ 0,28 $, soit une baisse de 60 % par rapport au GB300 NVL72, ce qui dépasse largement l'amélioration de la tendance historique. Cela signifie qu'il existe une marge d'augmentation d'environ 40 % pour le prix des serveurs NVIDIA, et même après une telle augmentation, il resterait une marge suffisante pour le Neocloud, et l'amélioration globale des coûts serait encore inférieure à la tendance historique.

La tarification de la mémoire SOCAMM est une autre variable clé. Le VR NVL72 utilise des modules de mémoire LPDDR5X enfichables (SOCAMM), qui peuvent être tarifés indépendamment des unités de calcul. SemiAnalysis estime que le prix contractuel du SOCAMM payé par NVIDIA au premier trimestre 2026 est d'environ 8 $ par Go, en hausse significative par rapport au trimestre précédent ; il prévoit que d'ici la fin 2026, le prix du SOCAMM pourrait dépasser 13 $ par Go. Dans ce contexte, il est logique que NVIDIA réalise une marge brute de 60 % sur le SOCAMM : d'une part, l'offre de mémoire est limitée et NVIDIA détient la plus grande part ; d'autre part, la position de leader en termes de performances TCO du VR NVL72 laisse aux clients peu d'alternatives.

Destination de la valeur : qui gagne, qui attend

Le cadre de SemiAnalysis révèle la contradiction centrale de la répartition actuelle de la valeur dans l'IA : l'amélioration de l'économie des tokens augmente rapidement les bénéfices des fabricants de modèles, des fournisseurs de services d'inférence et des Neoclouds, mais en tant que détenteurs des ressources les plus rares du côté de l'offre de puissance de calcul, les comportements de tarification de NVIDIA et TSMC présentent un décalage évident avec leur rareté d'offre.

La persistance de ce décalage est essentiellement un choix actif – NVIDIA joue un rôle similaire à celui d'une « banque centrale de l'IA », en distribuant de la valeur en aval grâce à l'amélioration de l'efficacité logicielle, afin de maintenir la dynamique d'expansion à long terme de l'écosystème, tout en évitant les pressions réglementaires antitrust. TSMC, quant à lui, perpétue sa philosophie historique de tarification qui consiste à « stabiliser l'écosystème et à ne pas profiter pleinement des hausses ».

Cependant, à mesure que le retour sur investissement de l'inférence devient de plus en plus clair et que la logique de tarification basée sur la valeur se généralise sur le marché, la pression sur ces deux entreprises pour passer à un cadre de tarification basé sur la valeur ne fera qu'augmenter. Une fois ce changement opéré, la configuration de la répartition de la valeur dans la chaîne industrielle de l'IA sera à nouveau remodelée – à ce moment-là, le pouvoir de négociation du côté de l'offre de puissance de calcul reviendra dans une plus large mesure à la couche matérielle.

Avis de risque et clause de non-responsabilité

        Le marché comporte des risques, investissez avec prudence. Cet article ne constitue pas un conseil en investissement personnel et ne tient pas non plus compte des objectifs d'investissement, de la situation financière ou des besoins spécifiques de chaque utilisateur. Les utilisateurs doivent déterminer si les opinions, avis ou conclusions contenus dans cet article sont adaptés à leur situation particulière. Investir en conséquence engage votre propre responsabilité.
TOKEN-2,89%
VR-0,48%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire