Le monde souffre de la DRAM depuis longtemps.

Actuellement, les centres de données sont confrontés à une nouvelle crise - non pas un manque de puissance de calcul, mais un coût de mémoire trop élevé.

Ces dernières années, avec l'expansion rapide des activités d'IA telles que l'inférence de grands modèles, les bases de données en mémoire et le calcul haute performance, les centres de données sont poussés vers un point critique en termes de ressources mémoire. La DRAM, qui était autrefois un composant standard des serveurs, est devenue la ressource d'infrastructure la plus chère et la plus rare, avec une flambée des prix et une rigidité de l'offre, devenant un facteur clé qui freine le rythme de déploiement de la puissance de calcul IA.

Selon les données de suivi de Counterpoint Research, le prix de la mémoire DIMM de 64 Go a augmenté de 3,5 fois entre le troisième trimestre 2025 et le premier trimestre 2026, et la tendance à la hausse n'a pas encore atteint son sommet - on prévoit qu'au troisième trimestre 2026, l'augmentation cumulée atteindra 5 fois.

Les données de TrendForce sont encore plus直观 : au premier trimestre 2026, les prix contractuels de la DRAM ont bondi de 93 % à 98 % d'un trimestre à l'autre, ce qui a entraîné une augmentation de 81 % du chiffre d'affaires global de l'industrie mondiale de la DRAM par rapport au trimestre précédent, atteignant 97 milliards de dollars. En entrant au deuxième trimestre, la tendance à la hausse ne s'est pas arrêtée, les prix contractuels devant encore augmenter de 58 % à 63 %.

Les signaux du marché au comptant sont encore plus直观 : le prix unitaire actuel de la DDR5 RDIMM de qualité serveur se situe entre 27 et 37 dollars par Go. Rien que pour construire un pool mémoire de 12 To, le coût d'achat du matériel DRAM pur approche les 500 000 dollars.

Crise DRAM, éclatement généralisé

La racine de cette tempête de hausse des prix réside dans l'érosion continue de la capacité de production de DRAM par le HBM.

Selon les données divulguées, avec l'explosion de la demande de mémoire à large bande passante pour l'entraînement et l'inférence de l'IA, la part du HBM dans la capacité de production de plaquettes de DRAM est passée de 2 % en 2020 à un estimé de 25 % en 2026. Les trois grands fabricants - Samsung, SK Hynix et Micron - ont tous orienté leur capacité de production de haute qualité vers le HBM à marge élevée. De 2025 à 2027, la proportion de plaquettes de HBM par rapport à l'ensemble des plaquettes de DRAM sera respectivement de 18 %, 22 % et environ 30 %. Une plaquette de HBM consomme environ trois fois la capacité de production de DDR5. Les trois grands fabricants réduisent activement les commandes à faible marge pour les téléphones mobiles et les PC, et orientent toute leur capacité vers l'IA. En tenant compte du fait que les grands fournisseurs de cloud pré-verrouillent la production future de plaquettes avec des contrats à long terme de plusieurs années, cela comprime encore davantage l'offre de DRAM standard destinée aux serveurs.

Et la rigidité du côté de l'offre détermine qu'il est difficile d'atténuer la pénurie à court terme.

Les processus avancés de DRAM dépendent fortement des machines de lithographie EUV, dont le prix unitaire atteint environ 200 millions de dollars. L'investissement dans une fonderie moderne s'élève souvent à des dizaines de milliards de dollars. Même si tout va bien, le cycle de construction dure plusieurs années. La vitesse d'expansion de la capacité de production est loin de suivre le rythme de la croissance de la demande d'IA.

Jefferies prévoit que, sans tenir compte de l'impact des fabricants nationaux, la croissance de l'offre mondiale de bits de stockage en 2026 ne sera que de 7 % à 8 %. La DRAM et la NAND combinées pourraient connaître un déficit d'offre d'environ 150 000 à 200 000 plaquettes par mois. Dans son rapport financier du troisième trimestre de l'exercice 2026, Micron Technology a indiqué que même si l'offre du secteur pourrait s'améliorer progressivement d'ici 2028, il est encore difficile de déterminer quand l'offre de stockage pourra rattraper la demande en constante augmentation.

De plus, la pression s'est déjà propagée des centres de données au côté consommation.

Asha Sharma, PDG de Xbox, a déclaré publiquement qu'au cours des deux dernières années, le coût de la mémoire avait augmenté d'environ cinq fois, ce qui a directement empêché l'entreprise de produire suffisamment de consoles de jeux pour répondre à la demande du marché. Apple a également annoncé une série de hausses de prix pour l'iPhone, le Mac, l'iPad et d'autres produits.

L'équipe de Shawn Kim, analyste chez Morgan Stanley, a même déclaré sans ambages que la flambée des prix de la mémoire et la rareté de l'offre se transforment en un risque global pour l'économie numérique, "passant du goulot d'étranglement de l'infrastructure IA à la rentabilité du matériel, à l'accessibilité des appareils, aux coûts du cloud, à l'inflation, voire aux politiques".

Dans la nomenclature des serveurs, l'évolution de la part de la DRAM est encore plus parlante. En 2023, la DRAM représentait environ 50 % du coût total d'un serveur ; au milieu de l'année 2026, cette proportion est passée à 60 % à 90 %, avec une moyenne d'environ 75 %. Le prix du CPU n'a pas baissé, mais en comparaison avec la flambée des prix de la mémoire, l'augmentation du prix du CPU semble négligeable.

Plus ironique encore, la mémoire achetée à un prix élevé n'est pas réellement utilisée à plein rendement. Les données de tests réels de grands fabricants comme Meta montrent que, dans les centres de données, seulement environ la moitié de la capacité de la mémoire contient des "données chaudes" actives, tandis qu'une grande quantité de données froides occupe les précieuses ressources DRAM.

Face au coût élevé et à la rareté de la DRAM, les acteurs du secteur commencent à explorer d'autres voies - non plus en empilant simplement du matériel, mais en utilisant des moyens techniques pour réduire la dépendance à la DRAM.

AMD : Ordonnancement prédictif par IA, la mémoire flash "invisible" devient mémoire

AMD a choisi la voie d'intervention logicielle la plus légère.

En juin 2026, AMD a annoncé l'acquisition de MEXT, une société d'optimisation mémoire. Son objectif principal est d'introduire une technologie de hiérarchisation mémoire pilotée par l'IA, qui déplace les données froides de la DRAM coûteuse vers la mémoire flash NAND à faible coût, permettant une expansion à faible coût de la capacité mémoire effective.

Selon les informations, MEXT a été fondée en 2023 et son équipe fondatrice a un pedigree impressionnant - le co-fondateur et CEO Gary Smerdon était auparavant Chief Strategy and Product Officer chez Fusion-io, un pionnier de la commercialisation à grande échelle du stockage flash. Il y a plus de dix ans, Apple et Meta Platforms étaient ses principaux clients.

Face au goulot d'étranglement de l'efficacité mémoire, MEXT a lancé une technologie de hiérarchisation mémoire basée sur l'IA (memory tiering). Cette technologie peut transférer les données à faible fréquence d'accès de la DRAM coûteuse vers la mémoire flash NAND, dont le coût par unité de capacité est bien inférieur, sans affecter le fonctionnement des applications.

Le produit principal de MEXT est le Predictive Memory Engine, une solution de hiérarchisation mémoire entièrement logicielle : elle surveille en continu les modèles d'accès des applications au niveau de la page mémoire, déplace automatiquement les données froides à faible fréquence d'accès vers la mémoire flash NAND - le coût par bit de la mémoire flash n'est qu'environ 1/55 de celui de la DRAM ; en même temps, via un modèle IA, elle apprend les schémas d'accès des charges de travail, prédit les pages de données qui vont être appelées et les précharge activement dans la DRAM avant même que l'application n'en fasse la demande, permettant au logiciel de lire les données comme s'il accédait directement à la mémoire principale, assurant ainsi que les performances ne soient pas affectées.

Source : Nextplat

L'ensemble du mécanisme est totalement transparent pour le système d'exploitation et les applications en amont, ne nécessite aucune modification du code métier, ni aucun matériel dédié supplémentaire, et peut être déployé en quelques minutes.

Les données officielles montrent que cette solution peut multiplier par 2 à 4 la capacité mémoire effective du système et réduire d'environ 50 % le coût global de l'infrastructure. Dans des scénarios typiques comme la base de données graphe Neo4j, la simulation EDA, le rendu vidéo, etc., une configuration avec un ratio 1:1 entre DRAM et mémoire flash peut atteindre environ 95 % du débit d'une configuration pure DRAM, mais à un coût considérablement réduit.

MEXT a effectué des tests comparatifs sur les serveurs Dell et les instances cloud AWS :

Comparaison des configurations Dell/AWS avec et sans mémoire étendue MEXT (Source : Nextplat)

Lors de l'utilisation de l'extension mémoire MEXT, les performances et le rapport qualité-prix de la base de données graphe Neo4j avec des ratios mémoire/flash de 1:1 et 1:3 :

Source : Nextplat

L'idée de MEXT n'est pas révolutionnaire - la hiérarchisation mémoire, le déplacement des données froides vers un support de stockage moins cher, sont des concepts qui existent depuis longtemps. Mais les technologies antérieures n'ont pas pu être déployées à grande échelle dans les centres de données, principalement en raison du manque de précision des algorithmes de prédiction. Une fois que la prédiction échoue, le programme doit récupérer les données de la mémoire flash vers la DRAM au moment où elles sont nécessaires, ce qui expose directement la latence, rendant la perte de performance inacceptable.

La percée de MEXT réside dans l'utilisation d'un modèle IA pour effectuer ce travail. Son moteur de prédiction mémoire analyse en continu les modèles d'accès mémoire, détermine via l'IA quelles pages de données sont les plus susceptibles d'être utilisées ensuite, puis, avant même que l'application ne fasse réellement la demande, déplace activement les données de la mémoire flash vers la DRAM.

Pour AMD, cette acquisition comble un maillon clé de sa capacité à fournir une solution complète. Au-delà des CPU EPYC, des GPU Instinct et de la pile logicielle ROCm, la couche d'efficacité mémoire apportée par MEXT permet à AMD d'offrir à ses clients une solution complète allant de la puce à l'ordonnancement des flux de données, aidant les clients à réduire leur coût total de possession, à diminuer les temps d'inactivité des GPU "en attente de données", et renforçant ainsi sa compétitivité sur le marché de l'infrastructure IA.

Le jour de l'annonce de l'acquisition, l'action AMD a grimpé de près de 7 % en cours de séance, le marché exprimant par son vote sa reconnaissance de cette voie.

Il faut bien sûr dire que dans quelle mesure la technologie de MEXT pourra être intégrée dans les produits de centres de données d'AMD reste à vérifier avec le temps. La différence physique de latence entre la mémoire flash NAND et la DRAM est objective. Il reste à voir si la prédiction IA au niveau logiciel peut réellement combler ce fossé, ce qui nécessitera une observation des performances réelles après un déploiement à grande échelle.

Apple : Modèles côté terminal, stockage du modèle "dans" la mémoire flash

Alors que les centres de données souffrent du coût élevé de la DRAM, le côté consommation est confronté à la même contrainte : la capacité DRAM des terminaux comme les téléphones est extrêmement limitée, mais ils doivent supporter les besoins d'inférence des grands modèles côté terminal. La réponse d'Apple est de faire résider les grands modèles en permanence dans la mémoire flash, et de les charger à la demande dans la mémoire.

Le dernier modèle AFM 3 Core Advanced d'Apple est un grand modèle côté terminal de 20 milliards de paramètres. S'il était chargé entièrement dans la DRAM de manière traditionnelle, cela dépasserait largement la limite de mémoire des appareils grand public. Apple a résolu ce problème grâce à une architecture d'activation sparse : le modèle complet est stocké entièrement dans la mémoire flash NAND ; lors de l'inférence, tous les poids ne sont pas chargés, mais seuls les modules experts nécessaires pour la requête sont sélectionnés en une seule fois, et seul l'ensemble de travail de 1 à 4 milliards de paramètres est chargé dans la DRAM.

Schéma de l'architecture du modèle AFM 3 Core Advanced

Contrairement aux modèles MoE traditionnels qui changent d'expert token par token, entraînant de fréquents transferts de données, Apple utilise un mécanisme de routage basé sur la granularité de la requête, combiné à une proportion élevée d'experts partagés résidant en permanence dans la DRAM, ce qui réduit considérablement le nombre d'échanges entre la mémoire flash et la mémoire, minimisant la latence de chargement. En combinaison avec l'élagage au niveau des instructions (IFP), l'optimisation de la couche Transformer, etc., l'occupation maximale de la DRAM pour le modèle de 20 milliards de paramètres est finalement contrôlée entre 2 Go et 8 Go, équilibrant ainsi l'occupation mémoire et l'efficacité de calcul, résolvant efficacement le problème de l'occupation excessive de la DRAM pour le MoE lors du déploiement côté terminal, permettant à celui-ci de fonctionner de manière fluide sur des appareils comme l'iPhone, réalisant une inférence côté terminal avec "grand modèle et petite mémoire".

Cette architecture n'est pas le fruit d'un travail de dernière minute.

En réalité, dès 2024, l'équipe de recherche d'Apple a publié l'article "LLM in a Flash", validant systématiquement la voie technique consistant à stocker les paramètres des grands modèles dans la mémoire flash et à les ordonnancer à la demande, réduisant ainsi le coût de calcul dans le cloud tout en fournissant un support d'architecture mémoire viable pour les applications IA côté terminal, permettant des vitesses d'inférence 4 à 5 fois plus rapides sur CPU et 20 à 25 fois plus rapides sur GPU par rapport au chargement naïf.

Alors que la hausse des prix de la DRAM se propage du côté industriel à l'électronique grand public, cette solution soutient l'expérience IA côté terminal tout en réduisant la dépendance des appareils à la DRAM de grande capacité.

Globalement, les deux voies d'AMD et d'Apple évoluent respectivement pour les centres de données et le côté terminal, mais convergent vers la même conclusion : la hiérarchie mémoire de l'inférence IA est en train d'être restructurée. Les caches KV à faible fréquence, les poids de modèles et les données côté terminal seront progressivement déplacés des HBM/DRAM coûteux vers les couches NAND Flash/SSD, formant une architecture de stockage multicouche.

Ce changement d'architecture entraîne des effets de transmission à plusieurs niveaux le long de la chaîne industrielle. Selon l'analyse de Citrini Research, les bénéficiaires les plus directs sont les fabricants de NAND.

Marvell : Compression matérielle + CXL, pour augmenter la capacité mémoire physique

Si AMD et Apple empruntent la voie de l'optimisation logicielle et architecturale, Marvell a choisi une percée au niveau matériel, en s'appuyant sur le protocole d'interconnexion à haute vitesse CXL, utilisant la technologie de compression matérielle in-line pour augmenter directement la capacité équivalente de la DRAM physique.

En juin 2026, Marvell a lancé la série de contrôleurs CXL Structera - Structera X (contrôleur d'extension mémoire) et Structera A (accélérateur proche mémoire). Les deux puces intègrent un module de compression matérielle CDB (Compression-Decompression Block) développé en interne.

Il est entendu que lors de l'écriture des données dans la DRAM, le module CDB compresse en temps réel via l'algorithme de compression sans perte LZ4 personnalisé ; lors de la lecture, la décompression est effectuée simultanément. L'ensemble du processus se déroule indépendamment dans le chemin mémoire, sans utiliser la puissance de calcul du CPU hôte, et est totalement transparent pour les applications en amont. Selon le type de données, 1 Go de DRAM physique peut fournir une capacité logique équivalente de 2 à 3,64 fois - dans un scénario de base de données mixte, le taux de compression moyen peut atteindre 3,64:1, ce qui équivaut à utiliser moins d'un tiers de la mémoire physique pour répondre aux mêmes besoins métier.

En outre, cette solution offre deux autres avantages de réduction des coûts : d'une part, la réutilisation de la mémoire ancienne - le contrôleur Structera X prend en charge la connexion de mémoire DDR4, permettant d'intégrer la mémoire DDR4 retirée dans le pool mémoire CXL, réduisant ainsi les nouveaux achats de DDR5 coûteuse ; d'autre part, la mise en pool mémoire - via le protocole CXL, il brise la limitation d'exclusivité de la mémoire par CPU unique, permettant à plusieurs serveurs de partager les ressources mémoire, absorbant ainsi la capacité inutilisée dans le système.

Avec le prix actuel au comptant de la DDR5 entre 27 et 37 dollars par Go, le coût matériel DRAM seul pour un pool mémoire de 12 To approche les 500 000 dollars ; avec un taux de compression estimé à 3 fois, l'achat de DRAM physique peut être réduit des deux tiers, économisant ainsi plus de 300 000 dollars par pool.

Sandisk : Mettre la NAND sous le GPU

La solution de Sandisk est encore plus radicale - restructurer l'architecture mémoire des puces IA au niveau du packaging.

Sandisk, en collaboration avec SK Hynix, travaille à la normalisation de la mémoire flash à large bande passante (HBF), cherchant à rapprocher la mémoire flash NAND du cœur de calcul, créant ainsi un nouveau niveau de stockage entre le HBM et le SSD.

Le brevet de Sandisk propose une architecture "NAND sous GPU" : empiler une mémoire flash NAND de grande capacité directement sous le GPU ou l'accélérateur IA, entourée de piles HBM, en raccourcissant considérablement la distance de transmission des données pour améliorer la bande passante d'accès à la mémoire flash. Selon les plans, la HBF sera physiquement compatible avec HBM4, avec une capacité de 8 à 16 fois celle du HBM pour un volume équivalent, tout en présentant un avantage significatif en termes de coût, ciblant principalement les scénarios à forte intensité de lecture comme l'inférence de longs contextes, les caches KV, le chargement en flux des poids de modèles, etc.

Cette technologie, appelée HBF (High Bandwidth Flash, mémoire flash à large bande passante), se positionne entre le HBM et le SSD. Si l'on compare le HBM à un "livre de référence" étalé sur une table, la HBF basée sur la NAND serait une "bibliothèque" placée à côté du GPU. Le HBM traite les données qui nécessitent une réponse immédiate, tandis que la NAND sous le GPU stocke des données plus volumineuses et permet des lectures et écritures répétées.

L'objectif de Sandisk est de développer une HBF dont la bande passante est proche de celle du HBM, offrant 8 à 16 fois la capacité du HBM pour un coût similaire. En février 2026, Sandisk et SK Hynix ont officiellement lancé une alliance de normalisation des spécifications HBF. SK Hynix apporte son expertise en matière d'empilement, de packaging et de couche d'interconnexion accumulée dans le HBM, tandis que Sandisk apporte ses capacités en conception NAND et mémoire flash. Les deux parties prévoient de lancer les premiers échantillons HBF au second semestre 2026, et de les appliquer aux appareils d'inférence IA début 2027. L'objectif est de construire une architecture mémoire à trois niveaux : le HBM pour le calcul instantané à très faible latence, la HBF pour les données volumineuses à haut débit et à lectures répétées, et le SSD pour le stockage froid, chaque niveau jouant son rôle.

Bien sûr, la commercialisation à grande échelle de la HBF doit encore franchir plusieurs obstacles. La forte densité thermique due à l'empilement de la puce de calcul et de la NAND, les défis de rendement du bonding hybride et du routage complexe, ainsi que l'écosystème logiciel pour l'ordonnancement des données chaudes et froides, nécessitent du temps pour être progressivement affinés.

Selon les prévisions de Shinyoung Securities en Corée, le marché de la HBF devrait se former en 2027 et atteindre 12 milliards de dollars d'ici 2030.

Pour les fournisseurs de cloud exploitant des dizaines de milliers de nœuds, cela signifie une optimisation massive des dépenses d'investissement. Actuellement, Structera est déjà le premier contrôleur CXL au monde avec compression matérielle in-line à être produit en série. La solution technique associée a été soumise à l'OCP (Open Compute Project) pour normalisation, et son champ d'adaptation devrait s'élargir à l'avenir.

Leçon du passé : La voie inachevée du 3D XPoint

En parlant de cela, utiliser la mémoire flash pour étendre la mémoire principale n'est pas nouveau.

Dès 2015, Intel et Micron ont conjointement lancé la technologie de stockage 3D XPoint, dont la vision correspondait précisément aux points douloureux de l'industrie d'aujourd'hui - créer un nouveau support de stockage dont les performances se situent entre la DRAM et la mémoire flash NAND, prenant en charge l'adressage par octet, avec un coût proche de celui de la mémoire flash, construisant ainsi un nouveau niveau entre la mémoire et le stockage traditionnel.

Malheureusement, le 3D XPoint n'a finalement pas tenu ses promesses initiales.

Le retard dans le développement du procédé a fait que son coût a rattrapé celui de la DRAM, tandis que ses performances n'étaient que quelques fois plus rapides que celles de la mémoire flash ordinaire ; de plus, la stratégie fermée d'Intel consistant à le lier à ses processeurs Xeon l'a empêché d'entrer sur le marché grand public. Finalement, le projet a été abandonné, et l'activité de mémoire flash d'Intel a été vendue à SK Hynix. Cette technologie, qui était porteuse de grands espoirs, est devenue une note regrettable dans l'histoire du stockage.

Si Intel n'avait pas abandonné le 3D XPoint, ses bénéfices seraient aujourd'hui juteux ? Malheureusement, l'histoire n'a pas de "si".

De plus, certaines startups chinoises proposant des solutions de calcul intégré à la mémoire et de mise en pool mémoire devraient probablement attirer davantage d'attention à l'avenir. Après tout, dans un contexte où les prix de la DRAM sont élevés et l'offre est comprimée, celui qui pourra proposer une véritable solution viable d'optimisation mémoire pourrait obtenir le prochain tour de financement sur le marché des capitaux.

En guise de conclusion

De l'échec du 3D XPoint aux multiples voies actuelles, l'exploration de l'efficacité mémoire dans l'industrie du stockage ne s'est jamais arrêtée.

AMD utilise l'IA pour ordonnancer les données chaudes et froides, Apple utilise l'activation sparse et le stockage flash pour compresser l'occupation mémoire côté terminal, Marvell utilise la compression matérielle pour faire en sorte que la mémoire physique donne plus d'elle-même, Sandisk empile la NAND sous le GPU en 3D - les voies techniques des quatre entreprises sont différentes, mais pointent toutes dans la même direction : la hiérarchie mémoire de l'inférence IA est en train d'être restructurée - les données chaudes restent dans la DRAM et le HBM pour garantir les performances, tandis que les données tièdes et froides descendent progressivement vers la couche flash pour supporter la capacité, les supports multicouches coopèrent pour équilibrer performances et coûts.

Le coût élevé de la DRAM pousse toute l'industrie "dans ses retranchements". Mais c'est cette pression qui a donné naissance à une série d'innovations technologiques impressionnantes.

Il est indéniable que le fossé physique de latence entre la mémoire flash et la DRAM existe toujours, et les performances réelles des diverses solutions doivent encore être vérifiées par des déploiements à grande échelle. Mais ce qui est certain, c'est que l'époque où l'on résolvait les problèmes en empilant simplement de la DRAM est en train de passer. Un système mémoire plus efficace et plus hiérarchisé est la nouvelle direction pour l'avenir de l'industrie.

Source de cet article : Observatoire de l'industrie des semi-conducteurs

Avertissement sur les risques et clause de non-responsabilité

        Le marché comporte des risques, investissez avec prudence. Cet article ne constitue pas un conseil d'investissement personnel et ne tient pas compte des objectifs d'investissement, de la situation financière ou des besoins particuliers de chaque utilisateur. Les utilisateurs doivent déterminer si les opinions, points de vue ou conclusions contenus dans cet article correspondent à leur situation particulière. En investissant, vous assumez les risques.
DRAM0,58%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé