C'est un modèle de milieu de gamme, le plus "travailleur" de la série Sonnect. Sur le test de capacité d'agent SWE-bench Pro, il a obtenu 63,2 points – seulement 6 points de moins que le score phare de 69,2 de l'Opus 4.8. Sur un autre plan, au test de raisonnement de niveau master GPQA-AAA v2, le Sonnet 5 a même surpassé l'Opus 4.8.

Le prix est encore plus crucial. Pendant la période promotionnelle, chaque million de tokens d'entrée coûte 2 dollars, et les tokens de sortie 10 dollars. Les prix correspondants pour l'Opus 4.8 sont de 5 et 25 dollars – le Sonnet 5, pour 40 à 60 % du prix, atteint plus de 90 % des capacités du modèle phare.

Cette nouvelle peut être lue de deux manières.

La première : l'IA devient encore moins chère. La baisse des coûts profite à tout le monde, la guerre des chatbots continue, et les fabricants de modèles se battent à mort.

La seconde – et c'est ce que le marché est en train de valoriser – plus les modèles deviennent bon marché, plus la puissance de calcul et le stockage deviennent chers.

Le jour de la sortie de Claude Sonnet 5, l'indice américain des semi-conducteurs a grimpé de près de 4 %.

Dans le récit de l'IA des trois dernières années, il y a une ligne claire : l'efficacité de l'inférence va tuer la demande de puces. Mais ce jugement s'est trompé à chaque point de données.

Baisse des prix : mille fois en trois ans

Regardons d'abord cette ligne de baisse des prix.

En 2022, le coût d'appel API de niveau GPT-4 était d'environ 0,03 dollar par millier de tokens. En 2025, le prix des modèles de performance équivalente – selon le rapport AI Index de Stanford – a baissé d'environ 280 fois. En ajoutant les effets combinés de l'open source et des gains d'efficacité, l'industrie reconnaît une baisse de 1000 fois.

Ce n'est pas seulement un modèle qui a baissé, c'est chaque entreprise qui baisse.

Avec cette fois le Sonnet 5, Anthropic cible la densité de capacité de l'Opus 4.8, avec un prix seulement de 40 à 60 %. Le Google Gemini Omni Flash génère des vidéos à 0,10 dollar par seconde, le modèle d'image Nano Banana 2 Lite produit une image en 4 secondes, pour seulement 0,034 dollar le millier – soit la moitié du prix de la génération précédente. DeepSeek-V4-Pro a fait baisser le coût d'entrée d'un million de tokens à 0,035 dollar.

La baisse des prix ne se produit pas seulement sur les grilles tarifaires.

Le 24 juin, The Information a rapporté qu'OpenAI avait trouvé en interne une technique d'optimisation purement logicielle – les besoins en GPU pour une certaine étape de calcul ont été réduits de plus de la moitié, le pool de GPU dédié passant de plusieurs milliers à quelques centaines. Le même mois, Meta a proposé le plan Vistara : reconnecter la mémoire DDR4 retirée des serveurs mis au rebut via sa propre puce CXL, et la combiner avec du DDR5 dans un rapport 3:1, réduisant le coût du serveur d'inférence de 25 %. Le 30 juin, Jieyue a open-sourcé la technologie de décodage spéculatif JetSpec – la vitesse d'inférence des grands modèles peut être améliorée de près de 10 fois. En termes équivalents, pour la même quantité de tokens de sortie, le nombre de GPU nécessaires peut chuter d'un ordre de grandeur.

Si l'IA était une fonction coût-demande traditionnelle, ces signaux pointeraient vers une chose : moins de puces seront nécessaires à l'avenir.

C'est ce que craignait Wall Street.

Le week-end de janvier où DeepSeek a publié R1, les actions d'infrastructure IA ont connu la vente la plus violente de ces dernières années. Le titre de la société de cloud IA Nebius a chuté de 40 %. L'histoire est simple : les modèles open source chinois vendent des tokens à 0,1 dollar, les entreprises américaines dépensent 2 dollars, la demande de puissance de calcul doit forcément s'effondrer.

Explosion : les dépenses totales augmentent de 320 %

Mais ce qui s'est réellement passé est tout le contraire.

Roman Chernin, cofondateur de Nebius, a rappelé plus tard : la semaine où DeepSeek a provoqué la panique, 'c'était peut-être notre meilleure semaine de ventes'. La première réaction des services achats des entreprises après avoir vu la chute brutale des coûts n'a pas été de réduire les budgets, mais enfin de pouvoir lancer l'inférence à grande échelle.

En 2024, les dépenses totales des entreprises mondiales en IA générative étaient d'environ 115 milliards de dollars. En 2025, ce chiffre a bondi à 370 milliards de dollars – une augmentation de 320 % en un an. Selon une enquête de Menlo Ventures auprès des entreprises, l'entreprise médiane gérait 'des dizaines' d'applications IA en 2025, contre 1 à 2 en 2023.

Les données de toutes les dimensions sont sur la même courbe :

Uber avait déjà épuisé son budget IA annuel en avril 2026. AT&T traite actuellement 27 milliards de tokens par jour – il y a 18 mois, ce chiffre était de 800 millions. Une grande compagnie d'assurance maladie américaine est passée de 3 millions de tokens par mois à plus de 150 millions.

En décomposant, la croissance provient de la superposition de trois directions.

Premièrement, la diffusion des applications. Le service marketing de chaque entreprise utilise 3 outils IA, le service commercial 4, le service client 2, plus le juridique, les RH, la finance – de 2 à des dizaines, c'est un saut d'ordre de grandeur.

Deuxièmement, la profondeur d'une seule application. Prenons l'exemple de l'IA de service client : en 2023, environ 500 interactions par jour, chacune d'environ 800 tokens, la conversation se terminait après. En 2025, 15 000 interactions par jour, chacune d'environ 4 500 tokens, et chaque interaction déclenche encore 3 à 5 inférences ultérieures – analyse des sentiments, prédiction d'escalade, évaluation de la qualité – toutes superposées sur la même entrée.

Troisièmement, la complexité accrue des modèles eux-mêmes. Passer d'un modèle à un seul tour de 7B paramètres à un agent de raisonnement multi-étapes de plus de 70B, chaque tour d'inférence interne consomme des dizaines à des centaines de fois plus de tokens qu'une interaction linéaire.

En d'autres termes, le coût du token a été réduit au millième, et le nombre de tokens utilisés par le marché a augmenté de plusieurs dizaines de milliers de fois. L'effet net de cette multiplication ne va que dans une direction : une explosion des dépenses.

La consommation de tokens double tous les deux mois – plusieurs pistes indépendantes convergent vers le même chiffre. Si l'on trace cette courbe exponentielle jusqu'en 2027, le dépassement de 100 milliards de dollars de dépenses annuelles en IA des entreprises est une question d'arithmétique, pas de prévision.

Transmission : le stockage a augmenté de six fois, l'infrastructure des puces pointe vers 7,6 trillions

L'augmentation des prix de la mémoire est le signal le plus direct de la transmission de la demande d'IA de la couche modèle à la couche matérielle.

À partir du troisième trimestre 2025, les prix spot du DRAM et du NAND Flash ont augmenté de plus de 300 % cumulés. Les puces DDR5 ont dépassé 90 % d'augmentation en un seul mois. En 2026, la hausse des prix non seulement ne s'est pas arrêtée, mais s'est accélérée. Au premier trimestre, la hausse des prix contractuels du DRAM a été révisée de 55%-60 % attendus à 90%-95 % ; le NAND de 33%-38 % à 55%-60 %. Au deuxième trimestre, TrendForce prévoit une nouvelle hausse de 58%-63 % pour le DRAM, et de 70%-75 % pour le NAND.

En prenant un produit grand public comme référence : le kit Acer Predator 32G DDR5 6000, fin octobre 2025 le prix était encore de 1300 yuans, en janvier 2026 il avait grimpé à 2700 yuans. Un doublement en trois mois, extrêmement rare sur le marché des biens de consommation.

L'activité mémoire de Samsung a enregistré au quatrième trimestre 2025 un bénéfice d'exploitation trimestriel record – dépassant 20 billions de wons, soit environ 96,2 milliards de yuans. Le moteur le plus fondamental de cette hausse sur plus d'un an ne vient pas du renouvellement des consommateurs en téléphones ou PC, mais des achats massifs des centres de données IA en HBM, SSD d'entreprise et DRAM haute densité.

Un rapport de Goldman Sachs en mai a poussé ce calcul à l'extrême.

Le rapport prévoit que les dépenses d'investissement cumulées en infrastructures IA mondiales de 2026 à 2031 s'élèveront à environ 7,6 trillions de dollars. 765 milliards de dollars en 2026, puis jusqu'à 1,6 trillion en 2031. Parmi cela, un seul GPU de référence (basé sur le NVIDIA VR200 Rubin) est estimé à 80 500 dollars, et NVIDIA représente 75 % des dépenses totales de puissance de calcul pour chaque période.

Goldman Sachs a également posé une question clé dans le rapport : si les ASIC (puces spécialisées) remplacent massivement les GPU, cela peut-il réduire la demande totale ?

La réponse dépend du cas. Si la demande est inélastique – les besoins en puissance de calcul IA des entreprises sont fixes – le remplacement par des ASIC peut directement réduire le besoin total en capital. Mais si la demande est élastique – plus la puissance de calcul est bon marché, plus on en achète – le changement de combinaison de puces remodèle principalement la répartition des profits entre différents fournisseurs, et non l'ampleur totale des dépenses.

Le scénario de base de Goldman Sachs choisit le second.

Les prix des actions américaines vont également dans la même direction. SanDisk a augmenté de 857 % depuis le début de l'année, et Bernstein a relevé son objectif de cours à 3000 dollars dans un rapport du 30 juin. AMD a grimpé de 7 % en un jour pour atteindre un record historique. Ceux qui fabriquent des GPU, du stockage, de l'encapsulation, des équipements de centres de données – tous sont proches de leurs sommets.

Le chiffre cité par Edgen.tech dans un article de synthèse du 11 juin est le plus frappant : le prix des puces mémoire a été multiplié par six au cours de l'année écoulée.

L'étiquette de 'reprise cyclique' ne colle pas. Derrière une augmentation de six fois, il y a la demande de tout le système économique qui réévalue l'infrastructure physique de l'IA.

Racine : Jevons avait déjà répondu en 1865

William Stanley Jevons a écrit un livre en 1865 intitulé 'La question du charbon'.

Son observation clé : après l'amélioration de la machine à vapeur par Watt, la consommation unitaire de charbon a fortement diminué, mais la consommation totale de charbon en Grande-Bretagne a augmenté au lieu de diminuer. Parce que l'amélioration de l'efficacité signifie que la vapeur devient acceptable en termes de coût dans davantage d'industries – textile, chemin de fer, mines, transport maritime – chaque nouveau scénario a créé une demande de charbon qui n'existait pas auparavant.

160 ans plus tard, la même formule se répète pour la puissance de calcul de l'IA.

Les entreprises ont fait le calcul. Avec le prix du token de 2022, les conversations de service client en inférence en temps réel étaient économiquement irréalisables. Les scénarios non urgents ne valaient pas la peine d'exécuter l'IA. La génération de contenu personnalisé ne pouvait se faire qu'au niveau de segments de groupe, pas au niveau individuel. En 2025, le prix a baissé de 1000 fois, et ces 'besoins qui n'existaient pas auparavant' sont tous devenus des besoins essentiels.

Chernin de Nebius a donné la conclusion la plus directe : 'Chaque fois que nous rendons une même unité d'intelligence moins chère, nous ne réduisons pas la consommation, nous l'augmentons – car le même budget peut résoudre des tâches plus complexes.'

Le marché ignore une autre force structurelle : la rétroaction positive de la marge brute.

La courbe de marge brute de l'inférence IA n'a pas d'équivalent dans l'histoire. Une entreprise fournissant des API peut avoir une marge brute de seulement 10 % au début – l'entraînement des modèles est cher, l'inférence est chère. Mais les optimisations logicielles (fusion d'opérateurs, quantification, décodage spéculatif) réduisent les coûts d'inférence chaque mois, tandis que les ajustements de prix sont toujours en retard. Ainsi, la marge brute passe de 10 % à 90 % plus rapidement que dans n'importe quelle industrie traditionnelle.

La marge brute génère des bénéfices, les bénéfices augmentent les achats, les achats diluent les coûts – une boucle de rétroaction positive, sans plafond.

'Si vous avez du DRAM, vous pouvez vendre des tokens ; sans DRAM, vous ne pouvez pas vendre de tokens.' Cette phrase est en train de devenir l'équation de base de la demande de puces d'IA.

Les deux hypothèses de sensibilité du rapport de Goldman Sachs renforcent également le même jugement. Si la durée de vie économique des puces passe de 5 à 3 ans, le cycle de remplacement s'accélère, et le besoin en capital cumulé augmente directement d'un cran. Si la mémoire par puce est 25 % plus élevée que prévu – cela modifie principalement la répartition des dépenses à l'intérieur de l'empilement de puces, avec un impact net limité sur le total de 7,6 trillions, mais la direction est la même : l'argent ne sera pas dépensé en moins.

Fin de partie : qui détient la puissance de calcul

La levée des contrôles à l'exportation de Fable 5 – interdiction le 12 juin, levée le 30 juin, trois semaines – a donné une note inattendue à ce paradoxe.

La raison du contrôle était le 'risque pour la sécurité nationale'. La levée du contrôle n'a rien à voir avec la disparition du risque – des substituts sont apparus. Des équipes asiatiques comme Tulongfeng ont lancé des modèles proches du niveau Mythos pendant la période de contrôle, et l'effet dissuasif du blocus a rapidement été réduit à zéro. La levée est une réalité, sans rapport avec la bonne volonté.

Cet épisode s'insère parfaitement dans la ligne principale du paradoxe de la réduction des coûts de l'IA : les modèles sont substituables. De GPT à Claude à DeepSeek aux modèles open source, personne ne peut monopoliser la capacité de l'IA elle-même – si quelqu'un met un obstacle, quelqu'un trouve un chemin de contournement.

Le matériel n'est pas soumis à cette logique.

Les GPU ne le sont pas. Le DRAM ne l'est pas. Le cycle de construction d'une usine de fabrication de wafers se mesure en années. La capacité de production des machines de lithographie est fixe. L'élasticité de l'offre de silicium de haute pureté est quasi nulle. Ce sont des lois de la physique, pas des stratégies commerciales. L'optimisation logicielle peut réduire le coût des modèles de mille fois, mais ne peut pas réduire d'un jour le cycle de construction d'une usine de wafers.

Le point final de la baisse des prix des modèles d'IA, si ce paradoxe continue de se dérouler, ne mène pas à la dé-capacité de calcul – il mène à une reconcentration du pouvoir de fixation des prix du calcul. Peu importe le modèle que vous utilisez, les tokens doivent tourner sur la puce de quelqu'un. Chaque centime de baisse de prix des fabricants de modèles finit par devenir un revenu dans les livres comptables des centres de données, des usines de wafers et des lignes de production de mémoire. Plus la réduction des coûts est agressive, plus ce transfert est irréversible.

Avertissement sur les risques et clause de non-responsabilité

        Les marchés comportent des risques, investissez avec prudence. Cet article ne constitue pas un conseil en investissement personnalisé et ne tient pas compte des objectifs d'investissement, de la situation financière ou des besoins particuliers d'un utilisateur individuel. L'utilisateur doit examiner si les opinions, points de vue ou conclusions de cet article sont appropriés à sa situation particulière. En investissant sur cette base, la responsabilité incombe à l'utilisateur.

DRAM-8,45%

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
GateCompletesDividendDistribution
138,28K Popularité
#
StrategyBuybackSurges12%
1,27M Popularité
#
IsraelStrikesIranBTCPlunges
67,29K Popularité
#
PredictWorldCupShare20000U
566,26K Popularité
#
TrumpDisclosesOver100MBTCETH
3,83M Popularité

Épinglé

Plus l'IA est bon marché, plus les puces sont chères.

Baisse des prix : mille fois en trois ans

Explosion : les dépenses totales augmentent de 320 %

Transmission : le stockage a augmenté de six fois, l'infrastructure des puces pointe vers 7,6 trillions

Racine : Jevons avait déjà répondu en 1865

Fin de partie : qui détient la puissance de calcul

Sujets populaires

GateCompletesDividendDistribution

StrategyBuybackSurges12%

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

TrumpDisclosesOver100MBTCETH

Épinglé