Scénario final des semi-conducteurs AI : la pénurie durera-t-elle au moins cinq ans ?

> Titre original : « Projection finale des semi-conducteurs IA 2026 (II) »
> Auteur original : fin, analyste IA

Alors que l'évolution structurelle des semi-conducteurs converge vers le thème principal de l'inférence IA, la mémoire et le stockage deviennent les goulets d'étranglement les plus importants. La plus grande interrogation du marché concernant la mémoire et le stockage est la suivante :

Le HBM/DRAM/SSD pourra-t-il se libérer de la cyclicité traditionnelle ?

L'évolution de l'architecture GPU, qui repose sur la croissance exponentielle du HBM, va-t-elle s'arrêter ? Quand s'arrêtera-t-elle ?

Quel sera l'impact de l'expansion de CXMT ? Va-t-elle replonger ce marché dans le marasme cyclique ?

Cet article tente d'établir un cadre pour démêler ces questions

Tout est cyclique, et la cyclicité de la mémoire est particulièrement forte. La cause principale est la trop longue durée du cycle d'expansion de la production, qui ne peut pas s'adapter rapidement et qui est en décalage avec les périodes de pénurie de la demande.

Plusieurs façons possibles de se libérer de la cyclicité traditionnelle

  1. Personnalisation : les produits ne sont pas interchangeables, la capacité de production ne peut pas être transférée librement, nécessité de signer des contrats à long terme.

  2. Croissance structurelle exponentielle de la demande : la courbe de demande elle-même est très abrupte et l'offre n'arrive jamais à suivre.

  3. Mise à niveau rapide de l'itération technologique : chaque génération de produits élimine rapidement la précédente.

Si une condition est remplie, on peut partiellement se libérer du cycle traditionnel ; si deux ou trois conditions sont remplies, on peut se libérer de la majeure partie du cycle traditionnel.

Selon ce cadre, le HBM remplit environ deux conditions et demie sur les trois.

  1. Personnalisation, nécessité de contrats à long terme (faible, compte pour une demi-condition) ====================

Le HBM a effectivement une composante de personnalisation et de co-design avec Nvidia, mais elle n'est pas très forte. La partie véritablement personnalisée ne concerne que l'encapsulation et le die de base ; la dizaine de couches de DRAM die au-dessus reste entièrement standardisée selon JEDEC.

Par exemple, lorsque le HBM3E de Samsung n'a pas réussi la qualification chez NVIDIA et que sa part de marché est passée d'environ 60 % à 20 %, il n'a pas mis au rebut cette capacité de production ; il l'a simplement réaffectée aux TPU de Google et à AMD. Physiquement, le HBM3E destiné à NVIDIA et celui destiné à AMD sont la même chose. La capacité de production peut donc toujours être partiellement transférée librement.

Après le HBM4, la personnalisation sera plus importante, y compris l'intégration de logique personnalisée et/ou de cache sur le die de base. Une méthode plus complexe consiste à intégrer directement le contrôleur mémoire HBM4E et l'interface die-to-die personnalisée dans le die de base logique.

SemiAnalysis mentionne qu'OpenAI, NVIDIA et AMD travaillent chacun sur du HBM personnalisé, mais cela concerne la personnalisation du die de base ; les couches de DRAM au-dessus restent standard.

En raison de cette personnalisation partielle, le HBM nécessite principalement une coopération au niveau de l'encapsulation, ce qui oblige les clients à signer des contrats à long terme, mais la capacité de production peut effectivement être transférée. Ainsi, le HBM peut à peine compter comme une demi-condition.

  1. Croissance structurelle exponentielle de la demande (condition remplie) =================

La raison la plus directe est la demande de mise à niveau matérielle du token throughput de l'usine de tokens de Nvidia, ce qui entraîne une évolution très rapide des générations de bande passante HBM et une croissance exponentielle de la taille du HBM.

Cette condition est en fait la conclusion de l'article précédent, « Projection finale des semi-conducteurs IA 2026 (I) » :

token throughput = taille HBM × bande passante HBM, doublant à chaque génération.

La taille HBM par GPU augmente d'environ 40 % ou plus par an.

La pente de cette courbe de demande est si raide qu'il est difficile pour l'offre de DRAM (croissance de 14 % des wafers, multipliée par une amélioration de 9 % de la densité) de la rattraper.

Dans le domaine matériel, en raison des exigences très élevées de bande passante et de taille mémoire du cache KV pendant la phase d'attention, le HBM occupe une position unique. Même si le prix du HBM triple ou quintuple, dépenser de l'argent sur le HBM pour améliorer le token throughput marginal reste bien plus rentable que de le dépenser ailleurs.

Les autres voies mémoire, SRAM, HBF, CXL, PIM, ne peuvent actuellement pas concurrencer directement le HBM sur le segment principal du cache KV/attention, et il est peu probable qu'elles trouvent une alternative pour au moins les 5 prochaines années, voire plus.

  1. Mise à niveau rapide de l'itération technologique (condition remplie) ===============

L'ère DDR3 a duré 15 ans, et nous en sommes toujours à l'ère DDR5, tandis que le rythme de mise à niveau du HBM est d'environ une nouvelle génération tous les deux ans, beaucoup plus rapide que le DDR traditionnel, et récemment, la tendance s'accélère. La taille HBM × la bande passante HBM double à chaque génération, ce qui correspond parfaitement à cette règle.

Avec une mise à niveau HBM tous les deux ans, la vitesse des GPU NV augmente de manière exponentielle : 2 To/s -> 3,5 To/s -> 4,8 To/s -> 8 To/s -> 22 To/s, et la vitesse du HBM est directement proportionnelle au token throughput d'inférence. Le coût marginal d'utilisation de l'ancienne génération de HBM devient moins intéressant, et tout le monde a intérêt à utiliser les produits les plus récents, même s'ils sont plus chers, car les bénéfices (token throughput) sont plus importants.

La logique de l'ère de l'usine de tokens est que plus la mise à niveau technologique (bande passante HBM) est importante, plus les gains sont élevés.

Cette différence de vitesse crée une situation similaire à celle des CPU : les anciens produits se déprécient rapidement, ce qui réduit la valeur du stockage. Par exemple, la valeur du HBM3 se déprécie très rapidement ; aujourd'hui, les produits grand public ne l'utilisent plus.

Ainsi, le choix rationnel des fabricants de HBM passe d'une concurrence sur la capacité de production actuelle pour conquérir des parts de marché (concurrence quantitative) à une concurrence sur la stabilité et la vitesse du HBM, et sur la part de qualification pour la prochaine génération sur la plateforme NVIDIA (concurrence qualitative). Cela permet d'éviter le dilemme du prisonnier où, en période de ralentissement cyclique, personne ne veut réduire sa production pour perdre des parts de marché.

Comparé au DRAM traditionnel, le HBM remplit deux conditions et demie sur trois. Le HBM peut-il donc se libérer de la cyclicité traditionnelle ?

La source de la cyclicité de la mémoire, selon le récit dominant, est que la DRAM a une nature de commodité (pas de différenciation → guerre des prix → stockage possible), d'où sa cyclicité.

Mais la nature de commodité elle-même ne génère pas de cycle ; elle n'est qu'un amplificateur d'amplitude.

En particulier, dans le domaine de la DRAM, un dilemme du prisonnier est apparu : en période de ralentissement, Samsung a augmenté sa production pour gagner des parts de marché, et celui qui réduisait sa production en premier subissait des pertes, ce qui a conduit à ce que personne n'ose réduire la production, entraînant des pertes massives pour tous.

En réalité, la principale source structurelle de la cyclicité est que le cycle d'offre est trop long et peut facilement se désynchroniser avec le cycle de demande. La construction d'une fab prend 3 ans, nécessite des investissements de dizaines de milliards de dollars, et une fois la décision prise, elle est irréversible. La croissance de la demande est instable : à chaque nouveau paradigme de croissance (comme le cloud, les mobiles, la demande en ligne liée à la pandémie), il y a une croissance explosive, mais après deux ans, la croissance ralentit, l'offre dépasse la demande, les prix chutent fortement, et on entre dans un cycle de pertes.

Tout est cyclique, et le HBM ne peut pas y échapper. Cependant, tant que la demande de tokens reste exponentielle, la croissance structurelle exponentielle atténuera la cyclicité, car la demande est plus prévisible et, une fois les prix baissés, les clients ont intérêt à augmenter la taille du HBM (augmentant ainsi le token throughput). De plus, comme le HBM nécessite une certaine personnalisation, les contrats sont généralement à long terme, ce qui transforme la cyclicité en cyclicité de croissance, et ce cycle sera particulièrement long.

· Cyclicité : on gagne beaucoup pendant la phase ascendante, on perd beaucoup pendant la phase descendante. · Cyclicité de croissance : on gagne beaucoup pendant la phase ascendante, on gagne moins pendant la phase descendante.

De plus, le HBM/DRAM bénéficie d'un avantage important en plus de ces trois conditions pour se libérer du cycle traditionnel :

  1. Parce que la croissance de la densité DRAM ralentit de plus en plus et que la mise à niveau du HBM augmente le nombre d'empilements DRAM, la difficulté d'expansion de l'offre augmente constamment. ====================================================================

Vers l'an 2000, la densité de bits DRAM par wafer augmentait d'environ 45 % par an, ce qui signifie que même sans augmenter le nombre de wafers, le volume de bits DRAM de l'offre pouvait encore croître de 45 % par an.

Il y a dix ans, la croissance annuelle de la densité de bits DRAM était tombée à 20 %, et aujourd'hui, elle est tombée à 9 %. Auparavant, l'expansion de la production DRAM ne nécessitait même pas de nouvelles usines pour obtenir une augmentation annuelle de 20 à 30 % du volume de bits. Aujourd'hui, pour augmenter la production DRAM, il faut surtout augmenter le nombre de wafers, c'est-à-dire construire de nouvelles usines et salles blanches.

Une autre difficulté pour une expansion rapide du HBM est que le HBM3e nécessite environ 3 fois plus de wafers DRAM, et le HBM4, en raison de l'augmentation de la densité d'empilement, nécessite environ 4 fois plus de wafers DRAM. Cela signifie que, par rapport au bit DRAM, le bit HBM devient de plus en plus difficile à fabriquer. Le nombre d'unités de bit HBM fabriquées par wafer DRAM diminue, ce qui équivaut à une déflation.

Un jour, le HBM pourrait-il passer d'une cyclicité de croissance à une cyclicité traditionnelle ? Le facteur le plus important est la croissance structurelle exponentielle. Alors,

À l'ère de l'inférence IA, l'évolution de l'architecture GPU qui repose sur la croissance exponentielle du HBM va-t-elle s'arrêter ? Quand ?

token throughput = taille HBM × bande passante HBM. La raison de la croissance exponentielle de la taille HBM dans ce premier principe est la croissance du cache KV. Les caractéristiques du cache KV et de l'attention sont également très adaptées au HBM. Cela permet même au HBM d'être en avance sur les autres voies technologiques, maximisant l'utilisation de la phase de cache KV et d'attention.

Autrement dit, si le cache KV disparaissait structurellement de l'architecture, la logique de croissance exponentielle de la taille HBM serait remise en question.

La nature de cette question est donc en réalité la suivante : le mécanisme d'attention représenté par le Transformer, et le mécanisme de cache KV qui en découle, vont-ils disparaître ? Seront-ils remplacés après leur régression ?

D'après les lois historiques : à chaque révolution de l'architecture des modèles d'IA, ce qui est vraiment conservé, ce sont les opérations primitives qui ont une certaine universalité mathématique.

Par exemple : le FFN (réseau feed-forward, c'est-à-dire les nombreuses couches MLP dans les modèles) est un produit de l'ère de l'apprentissage profond en 2012, mais il a survécu jusqu'aux grands modèles de langage actuels et occupe encore une part importante des paramètres des modèles. Pourquoi a-t-il survécu ? Parce qu'il s'agit également d'un théorème d'approximation universelle : tout MLP suffisamment large peut approximer n'importe quelle fonction continue.

L'attention est probablement une primitive qui sera également conservée. Parce qu'elle résout un problème tout aussi fondamental : le routage dynamique entre deux positions quelconques dans une séquence, permettant à deux positions quelconques d'une séquence d'établir une connexion selon les besoins. Une fois que cette capacité est avérée efficace, il est difficile de l'abandonner.

Ainsi, même si les futures architectures évoluent d'un Transformer pur vers une architecture hybride ou un modèle du monde, la couche d'attention existera toujours. Le cache KV (ou son équivalent après compression latente) sera toujours nécessaire, et le HBM restera l'un des cœurs de l'inférence. L'évolution de l'architecture GPU basée sur la croissance exponentielle du HBM ne s'arrêtera pas.

Et le DRAM ? Est-il possible qu'il se libère un jour de la cyclicité traditionnelle ?

Le fait que le HBM se libère de la cyclicité fait l'objet d'un certain consensus sur le marché, mais pour le DRAM, il n'y a pratiquement aucun consensus actuellement.

Revenons au cadre précédent. Parmi les trois conditions pour se libérer du cycle traditionnel, le DRAM n'a pas de personnalisation, il ne reste donc que la vitesse de l'itération technologique. Le plus important est de voir s'il existe une croissance structurelle exponentielle. La réponse est oui.

Dans le concept d'usine de tokens IA, la croissance structurelle exponentielle concerne effectivement principalement le HBM. Mais les choses ont changé après la fin de l'année 2025 : alors que les CPU agentiques commencent à libérer leur potentiel, la demande de DRAM associée aux CPU devient une nouvelle source de croissance structurelle exponentielle pour le DRAM.

Cette croissance se décompose en deux niveaux : le premier niveau est la croissance rapide du TAM des serveurs CPU, et le second niveau est l'augmentation rapide de la quantité de DRAM par cœur de CPU serveur en raison du flux agentique.

Les 4 raisons de la croissance rapide du TAM des serveurs CPU ont été détaillées dans l'article dédié aux CPU d'avril. En bref :

  1. Le ratio CPU/GPU dans les clusters d'accélérateurs IA passe de 1:4 traditionnel à 1:2, et pourrait même s'approcher de 1:1.

  2. Dans les flux agentiques, la latence de traitement par le CPU représente une part élevée, 50 à 90 %, devenant un goulot d'étranglement important nécessitant une expansion simultanée.

  3. Le codage IA améliore considérablement l'efficacité des SDE, la quantité de code augmente d'un ordre de grandeur, les appels API logiciels augmentent de manière exponentielle, ce qui se traduit directement par une augmentation exponentielle des heures CPU.

  4. Les sandbox, pour garantir la sécurité et l'isolation des données, comme l'agent analytique qui doit copier de grandes quantités de bases de données et de contexte utilisateur pour chaque tâche, entraînent un gaspillage important de mémoire (DRAM) et de cœurs CPU, et ce problème ne pourra pas être résolu avant cinq ans, voire plus. De plus, il est techniquement difficile de réduire les heures CPU par des méthodes d'optimisation.

C'est pourquoi, il y a deux trimestres, AMD a déclaré dans ses résultats que le TAM des CPU atteindrait 60 milliards d'ici 2030. Il y a deux mois, AMD/ARM a doublé sa prévision du TAM des CPU pour 2030 à 120 milliards. Il y a un mois, Nvidia a de nouveau doublé sa prévision du TAM des CPU pour 2030 à 200 milliards.

Et la semaine dernière, Bernstein a encore relevé ses prévisions du TAM des CPU pour 2030 à 223 milliards. À mon avis, il n'y a guère de doute que le TAM des CPU pour 2031 sera révisé à la hausse à 400 milliards à l'avenir. La seule question est de savoir quand les géants annonceront cette révision à la hausse.

Deuxième niveau : pourquoi la quantité de DRAM par cœur de CPU serveur augmente-t-elle rapidement à l'ère agentique ?

  1. Les agents sont des processus persistants avec état, et non des requêtes-réponses sans état.

Le Web/SaaS traditionnel est sans état : la requête arrive, la mémoire est allouée, traitée, puis libérée immédiatement. Une tâche d'agent peut durer d'une minute à une heure. Pendant tout ce temps, son historique de messages, son prompt système, sa mémoire de travail, sa mémoire à long terme et le buffer des résultats des outils sont tous résidents en DRAM.

Comme pour les heures CPU, l'empreinte mémoire de chaque tâche, en raison de l'état et de l'isolation du sandbox (chaque tâche copie la base de données et le contexte), est techniquement difficile à compresser.

  1. La fenêtre de contexte s'allonge de manière exponentielle, et l'ensemble de travail de chaque session gonfle. La concurrence multipliée par l'empreinte mémoire par session amplifie l'effet.

La fenêtre de contexte passe de 32K à 256K à 1M, la longueur des séquences de raisonnement/test-time compute explose, et cela continuera d'augmenter. Les messages persistants de chaque session active augmentent linéairement avec la longueur du contexte.

Maintenant, multiplions les deux niveaux.

Premier niveau : le TAM des serveurs CPU, d'ici 2030-2031, est multiplié par environ 5 à 7 (60 milliards → 120 milliards → 200 milliards → 223 milliards, et je pense qu'il atteindra 400 milliards).

Deuxième niveau : le ratio DRAM par CPU est multiplié par environ 3 à 4 (4-8 Go → 16-32 Go par cœur), mais cette croissance pourrait être en grande partie un dividende unique.

En multipliant ces deux variables indépendantes, la demande de DRAM côté serveur est multipliée par un ordre de grandeur.

En 2030, même avec un TAM CPU conservateur de 300 milliards, un cœur CPU à 50 $, et à l'ère agentique, 16 Go par cœur (estimation la plus prudente), la nouvelle demande supplémentaire s'élèverait à au moins 96 EB. Or, la production totale de DRAM cette année n'est que de 47 EB, et l'année prochaine, à peine 60 EB. C'est une augmentation stupéfiante.

Bien que cette croissance exponentielle du DRAM due aux CPU agentiques soit, au deuxième niveau, largement un dividende unique, elle durera très longtemps, car le déficit est tout simplement trop important.

Revenons au cadre présenté au début de l'article. Parmi les trois conditions pour se libérer du cycle traditionnel, la première, la personnalisation du DRAM, peut être ignorée.

Quant à la deuxième condition : une source de demande structurellement exponentielle et difficile à inverser est vérifiée. Le DRAM commodité a désormais partiellement les qualifications pour se libérer de la cyclicité traditionnelle. Ce n'est pas aussi complet que le HBM (deux conditions et demie), mais c'est un changement substantiel.

Troisième condition : la vitesse de l'itération technologique. Le rythme du DRAM a également changé.

Parce qu'avant, la vitesse de l'itération technologique du DRAM dépendait fortement de l'électronique grand public. Les progrès du DDR n'étaient pas très utiles pour la performance. Mais dans un avenir prévisible, le DRAM traditionnel basé sur le carbone (grand public) sera largement inférieur en volume au DRAM basé sur le silicium (serveurs CPU).

Avant, l'utilité marginale de l'augmentation de la vitesse du DRAM était très faible. Mais aujourd'hui, en raison de la demande accrue de mémoire des serveurs CPU et de l'augmentation de la vitesse du DDR pour l'IA embarquée (par exemple, Apple utilise du LPDDR de plus en plus rapide pour exécuter des modèles locaux),

l'utilité marginale de l'augmentation de la vitesse est devenue beaucoup plus élevée. Ainsi, la demande d'itération rapide du DDR6 et du LPDDR6 a considérablement augmenté par rapport au passé. On peut le voir sur le graphique : le temps d'itération du LPDDR6/DDR6 s'est raccourci et la pente de la vitesse recommence à grimper.

Auparavant, lorsque les nouvelles générations de DDR/LPDDR arrivaient, la réaction était très tiède ; on attendait la baisse des prix pour les utiliser.

Aujourd'hui, avec l'arrivée du LPDDR6, tout le monde s'efforce de l'adopter le plus tôt possible, car l'augmentation de la vitesse apporte une amélioration tangible des performances.

De plus, l'offre de DDR subit un impôt supplémentaire de la part du HBM. La vitesse d'expansion annuelle du HBM est si rapide qu'une partie des wafers qui auraient pu être utilisés pour le DDR commodité est chaque année détournée vers le HBM. Le taux de conversion du HBM est extrêmement faible : le HBM3E nécessite environ 3 wafers DDR pour produire une quantité équivalente de bits, et le HBM4 en nécessite 4. Ainsi, chaque année, environ 3 à 5 % de la croissance des bits DDR est directement absorbée par cet impôt sur les bits HBM.

Par conséquent, bien que le volume de bits DRAM puisse croître d'environ 24 % par an à l'avenir (14 % de croissance des wafers, 9 % de croissance de la densité DRAM par wafer), après avoir pris en compte l'impôt sur les bits HBM, le DDR commodité traditionnel (non HBM) ne croît que d'environ 20 % par an (environ 10 % de croissance des wafers × environ 9 % d'amélioration de la densité des nœuds).

Quel est l'impact de l'expansion de la production de CXMT en Chine ? Si elle augmente massivement sa production de manière déloyale, replongera-t-elle ce marché dans le marasme cyclique ?

La vitesse d'expansion de CXMT ces dernières années a été très rapide. En 2025, elle est encore à 200 000 wafers par mois. En 2026, grâce à l'usine de Pékin et aux nouvelles lignes de production, elle atteindra 320 000 à 350 000.

L'usine de Shanghai, en construction, avec ses phases 1 et 2, devrait ajouter 100 000 wafers par mois d'ici 2027 pour la phase 1, et 100 000 wafers par mois d'ici 2028 pour la phase 2. Cela signifie qu'en 2027, elle produira 420 000 wafers par mois, et en 2028, 500 000 wafers par mois.

Cependant, il faut noter que la densité de bits DRAM de CXMT n'est qu'environ la moitié de celle des trois grands. Ainsi, les 500 000 wafers par mois de CXMT ne produiront qu'environ la moitié du volume de bits DRAM des autres. Dans le calcul des wafers par mois, on considérera donc une équivalence à la moitié.

En tenant compte de cette décote, l'impact de CXMT sur l'ensemble de l'industrie DRAM est considérablement réduit. De fin 2025 à fin 2028, l'impact de CXMT sur le CAGR de la capacité de production de bits DRAM n'est que d'environ 1,5 %, et le CAGR de la capacité de production de l'industrie dans son ensemble passe de 12,7 % à 14,2 %.

· Capacité mensuelle DRAM (kwspm) CAGR 2025E → 2028E · Samsung 685K → 920K 10,3 % · SK Hynix 519K → 725K 11,8 % · Micron 340K → 560K 18,1 % · Autres hors Chine 150K → 218K 13,3 % · Chine (densité divisée par deux) 117K → 274K 32,8 % · Total avec Chine 1811K → 2697K 14,2 % · Total sans Chine 1694K → 2423K 12,7 %

Même si CXMT maintient son rythme de croissance à l'avenir, son impact sur le CAGR annuel du volume de bits DRAM équivalent de l'industrie d'ici 2030 ne dépassera probablement pas 3 %, passant de 20 % à 23 %.

De plus, CXMT est limitée par les machines de lithographie, et le DDR6 nécessite des vitesses plus élevées (à partir de 14 400 MT/s) et une densité plus élevée. Les trois grands fabriqueront probablement le DDR6 avec des nœuds 1c ou plus avancés (< 12 nm), utilisant pleinement l'EUV. CXMT pourrait être limitée en vitesse pour le DDR6, et sa densité ne serait que la moitié.

Même en cycle de croissance, pourquoi le super-cycle actuel du DRAM durera-t-il longtemps, au moins cinq ans sans fin en vue ?

La première raison est l'augmentation massive de la demande côté serveur CPU, entraînant une croissance structurelle exponentielle de la demande de DRAM. En combinant cela avec le CAGR du volume de bits de l'offre DRAM (stable autour de 20 %), on voit clairement pourquoi le déficit de DRAM se creuse dans les années à venir :

L'offre de DRAM traditionnel non-HBM croît d'environ 20 % par an. Du côté de la demande, avec un TAM CPU de 60 milliards en 2026, une consommation moyenne de 8 Go par cœur CPU, et un coût de 30 à 35 $ par cœur, la demande est de 16 EB.

En 2030, avec un TAM CPU de 400 milliards, une consommation moyenne de 16 Go par cœur, et un coût de 80 $ par cœur (le prix des CPU a plus que doublé), la demande est de 80 EB. Le CAGR de cette partie du DRAM est d'environ 50 %, bien supérieur aux estimations actuelles.

Contrairement au HBM, qui est directement lié au token throughput et donc à l'efficacité de gain des GPU, le manque de DRAM affecte principalement la vitesse des flux agentiques. Par exemple, avec 8 Go par cœur contre 16 Go, certains workloads peuvent ralentir de 30 %, et certaines tâches de faible valeur peuvent attendre. La motivation pour une croissance structurelle exponentielle est forte, mais la demande n'est pas aussi rigide que celle des GPU.

SemiAnalysis affirme que le déficit de DRAM cette année est de l'ordre de quelques points de pourcentage, et l'année prochaine, il dépassera 10 %. Compte tenu de la structure du DRAM liée à l'augmentation massive du nombre de CPU agentiques, ce déficit continuera de se creuser chaque année, sans possibilité de diminution avant 2030.

Une autre raison pour laquelle le DRAM pourra maintenir sa vigueur longtemps est que, lorsque le DRAM augmente, la demande éliminée par cette hausse n'a pas vraiment disparu ; elle est simplement différée. Le réservoir de demande est trop important.

Le réservoir fait référence à la demande latente qui serait immédiatement libérée si les prix de la mémoire baissaient. Leur existence signifie que même si l'offre rattrape son retard par phases, il est difficile pour les prix de s'effondrer, car de nouvelles demandes émergent du réservoir pour compenser.

La puissance de calcul/vitesse de la mémoire est un réservoir :

Il existe une grande quantité de demandes qui nécessitent des ressources supplémentaires de mémoire pour optimiser la vitesse et la puissance de calcul. Lorsque la mémoire est trop chère, elles sont réprimées ; dès que le prix baisse, elles sont libérées.

Par exemple, l'accélérateur de préremplissage CPX de Nvidia, conçu à l'origine pour utiliser du GDDR7 supplémentaire à faible coût comme accélérateur de préremplissage dédié, s'est avéré moins rentable car le LPDDR/GDDR étaient trop chers, même plus chers que le HBM avant la hausse. Mais lorsque la mémoire standard baissera de prix, des solutions d'optimisation comme CPX reviendront.

Les tâches de faible valeur sont un réservoir : lorsque le prix de la mémoire augmente et que le prix des tokens reste élevé, les tâches à forte valeur sont prioritaires, tandis que les tâches à faible valeur sont reportées. Dès que la mémoire baisse de prix, ces demandes différées reviennent.

L'IA embarquée est un réservoir : la configuration mémoire des PC IA pourrait passer de 24 Go à 128 Go. Apple a déjà explicitement exigé que la version complète de l'IA embarquée passe de 8 Go à 12 Go de mémoire.

La demande réduite dans l'électronique grand public conventionnelle, les PC agentiques et les téléphones bas de gamme en raison de la hausse des prix de la mémoire constitue également un réservoir.

L'accumulation de tous ces réservoirs forme un coussin de demande très épais. C'est pourquoi la croissance structurelle du DDR dans ce cycle aura un élan plus fort que ce que le marché imagine.

Une autre raison pour laquelle il est difficile que le prix du DRAM chute fortement est que les capacités de production du HBM et du DRAM peuvent être interconverties, de sorte que l'ensemble du complexe DRAM se revalorise ensemble.

En période de hausse, la marge bénéficiaire du DRAM dépasse de loin celle du HBM. L'ampleur de la hausse du HBM est même déterminée par le DRAM. Cette année, le prix du HBM4 nouvellement signé est de 4 fois le prix du DRAM en vigueur, soit le prix correspondant au nombre normal d'empilements pour le HBM4.

Une fois que le DRAM baisse et que la marge brute diminue, en raison de la transparence des contrats à long terme du HBM, les marges bénéficiaires sont garanties. Le HBM retirera indirectement davantage de capacité de production du DRAM, et la baisse du HBM incitera davantage les fabricants de GPU à augmenter autant que possible la taille du HBM, ce qui protège indirectement le plancher des prix du DRAM.

Avec une demande structurellement exponentielle pour le DRAM, un ralentissement de la croissance de la densité, des difficultés croissantes d'expansion, des plans d'expansion prudents des fabricants, un impact limité de CXMT ces prochaines années, et un réservoir de demande très important, ces quatre raisons font qu'il est difficile pour le DRAM d'entrer dans un creux cyclique pour au moins cinq ans, voire plus.

Le NAND SSD a-t-il une chance de se libérer de la cyclicité traditionnelle ?

La dynamique de croissance structurelle du NAND n'est pas aussi forte que celle du DDR. La pénurie cette année est principalement due à la bonne discipline de production des principaux acteurs, qui n'ont pas augmenté massivement leur production. L'augmentation annuelle de la capacité provient principalement des améliorations technologiques : l'augmentation du nombre de couches d'empilement NAND.

La première croissance structurelle provient de l'IA, principalement du déchargement du cache KV : les parties tièdes/froides du cache KV qui débordent du HBM sont déchargées sur le NAND SSD.

Mais la chose étonnante est que cette croissance du déchargement du cache KV n'a même pas encore eu lieu à grande échelle, et pourtant le SSD est déjà plus rare que le DRAM, et la hausse des prix est plus importante. Lorsque le Rubin CMX sera en volume l'année prochaine, combiné à l'application à grande échelle du déchargement du cache KV, la pénurie de SSD augmentera également en raison de cette croissance structurelle.

Deuxièmement, une autre source structurelle mentionnée dans le résumé de l'année dernière, la future vidéo IA, a déjà commencé à se faire remarquer cette année.

La taille de Seedance augmente à un rythme de 10 à 40 fois par an. Actuellement, elle est encore limitée par le manque de puissance de calcul. La demande est comprimée par la puissance de calcul. Mais une fois cette pénurie passée, la croissance structurelle de la demande de stockage NAND pour la vidéo IA durera assez longtemps.

Troisièmement, une autre croissance structurelle provient également de l'augmentation exponentielle de l'utilisation des sandbox dans les flux agentiques. Les sandbox, pour garantir la sécurité et l'isolation des données (comme l'agent analytique qui copie de grandes quantités de bases de données et de contexte utilisateur pour chaque tâche), entraînent un gaspillage important de mémoire (DRAM) et de cœurs CPU, ainsi que de SSD.

Quatrièmement, une croissance structurelle qui pourrait jouer un rôle après 2030 provient de la voie HBF, qui nécessite l'utilisation de SSD. Beaucoup d'analystes bancaires placent de grands espoirs dans cette voie technologique, mais elle est encore lointaine. Son rôle principal serait de stocker les poids des grands modèles, en écrivant les poids une fois puis en mode lecture seule, et il faudrait qu'elle soit intégrée avec le GPU/HBM (48 To/s / 96 To/s), sinon la vitesse via PCIE 7/8 serait trop lente pour être utilisable. C'est prometteur, mais une analyse plus détaillée sera donnée dans le prochain article, « Projection finale des semi-conducteurs IA 2026 (III) ».

En résumé, la croissance structurelle du NAND SSD n'est pas aussi forte que celle du HBM, mais son avantage est d'être bon marché. Le prix en 2027 ne sera que de 0,8 $/Go, soit un quarantième du DRAM à la même période. C'est donc une sorte de solution polyvalente dans la hiérarchie des caches, avec des sources de croissance structurelle très variées.

Cela signifie qu'il n'est pas possible que le DRAM/HBM augmente seul tandis que le SSD n'augmente pas. Si tel était le cas, on chercherait à utiliser le SSD pour assumer certaines fonctions du DRAM/HBM, obtenant des effets similaires à moindre coût. Le HBM, le DRAM et le NAND ne sont pas trois histoires indépendantes, mais la croissance structurelle d'une même hiérarchie mémoire IA à différents niveaux de température.

La demande de croissance structurelle exponentielle existe. Le NAND SSD s'est-il libéré du cycle ? Il faut alors examiner la discipline de production des fabricants de NAND SSD. Le seul qui pourrait ne pas respecter la discipline de production est YMTC. C'est un dilemme du prisonnier : si un fabricant augmente massivement sa production de manière déloyale, il est beaucoup plus facile d'augmenter la production de NAND que de DRAM.

Mais au minimum, ce cycle du NAND est également un super-cycle. Grâce à la demande provenant de plusieurs sources de croissance structurelle exponentielle, le report de la phase descendante à 2030 ne devrait pas poser problème.

> Lien original

Cliquez pour connaître les postes à pourvoir chez BlockBeats

Bienvenue à rejoindre la communauté officielle BlockBeats :

Groupe d'abonnement Telegram : https://t.me/theblockbeats

Groupe de discussion Telegram : https://t.me/BlockBeats_App

Compte officiel Twitter : https://twitter.com/BlockBeatsAsia

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire