HBM vs DRAM : pourquoi les grands modèles d'IA ne peuvent-ils pas s'en passer ? Les puces mémoire passent de « l'ère planaire » à la « révolution 3D »

30 juin 2026, Bitcoin oscille dans une fourchette étroite autour de 60 000 dollars, Ethereum se maintient dans la zone des 1 600 dollars. Après le repli continu du marché des cryptomonnaies depuis juin, la domination à court terme des baissiers n'a pas changé. Mais alors que les actifs cryptos entrent dans un « temps mort », une autre piste connaît une croissance explosive sans précédent : la mémoire semi-conductrice.

L'Organisation mondiale des statistiques du commerce des semi-conducteurs (WSTS) a fortement revu à la hausse ses prévisions de croissance dans son rapport de printemps 2026 : le marché mondial des semi-conducteurs pourrait dépasser 1 510 milliards de dollars en 2026, en hausse de 90 % sur un an, avec une augmentation de 250 % des puces mémoire, dont la taille dépasse 800 milliards de dollars. La production de mémoire dépassera pour la première fois celle de la fonderie de wafers, devenant le premier pôle de croissance des semi-conducteurs.

Et le protagoniste absolu de cette révolution de la mémoire est la HBM (High Bandwidth Memory, mémoire à large bande passante). En 2026, la taille du marché de la HBM devrait augmenter de 58 % pour atteindre 54,6 milliards de dollars, représentant près de 40 % du marché de la DRAM. Quelle est la différence fondamentale entre la HBM et la DRAM ? Pourquoi les grands modèles d'IA dépendent-ils autant de la HBM ?

HBM et DRAM : même origine, destins différents

La HBM et la DRAM partagent le même support de stockage de base : la mémoire vive dynamique (DRAM). Mais leurs trajectoires techniques, leurs architectures et leurs applications ont évolué dans des directions totalement différentes.

La DRAM traditionnelle suit une voie d'« expansion plane ». Les DRAM traditionnelles comme les DDR4 et DDR5 utilisent une architecture plane, améliorant les performances par des mises à niveau de procédé (par exemple, de 20 nm à 2 nm) et des optimisations architecturales (comme l'augmentation du nombre de prélectures dans la DDR5). La logique centrale est de réduire continuellement la taille des transistors sur un plan bidimensionnel et d'augmenter la fréquence. Mais cette voie approche de ses limites physiques : les procédés en dessous de 2 nm sont confrontés à des problèmes d'effet tunnel quantique, et la simple miniaturisation des procédés ne peut plus répondre à la demande exponentielle de bande passante mémoire des calculs IA.

La HBM a quant à elle choisi la voie de l'« empilement vertical ». La HBM utilise une structure 3D, empilant verticalement plusieurs matrices DRAM à l'aide de la technologie TSV (Through-Silicon Via), formant une structure cubique – des milliers de trous microscopiques sont percés dans la puce DRAM, et des électrodes traversant verticalement connectent les puces supérieure et inférieure. La couche inférieure est l'unité de contrôle logique DRAM, responsable du séquencement et du contrôle global. Cette conception en « empilement de tuiles » permet à la HBM d'atteindre une densité de bande passante extrêmement élevée dans un espace physique très réduit.

L'écart entre les deux en termes d'indicateurs de performance clés est générationnel :

Bande passante : la DRAM traditionnelle (par exemple DDR5) offre une bande passante d'environ 50-100 Go/s, tandis que la HBM3E peut atteindre 1,2 To/s par pile, et la prochaine HBM4 devrait dépasser 2,0 To/s. La bande passante de la HBM est plus de 10 fois supérieure à celle de la DRAM traditionnelle.

Efficacité énergétique : la HBM peut descendre en dessous de 5 pJ/bit, tandis que la DRAM traditionnelle se situe entre 10 et 15 pJ/bit. Dans un centre de données avec des milliers de GPU fonctionnant simultanément, cette différence se traduit par des millions de dollars d'économie d'électricité par an.

Latence : la DRAM traditionnelle, grâce à son architecture plane, peut maintenir une latence de l'ordre de 10 ns, tandis que la HBM, en raison de l'augmentation du nombre de couches empilées, a une latence de l'ordre de 100 ns. Cependant, dans les scénarios d'entraînement et d'inférence IA, la sensibilité au « débit » est bien plus élevée qu'à la « latence unique » – le débit rapide de masses de paramètres est bien plus important que la vitesse d'un seul accès.

Coût : le coût de production de la HBM est bien plus élevé que celui de la DRAM traditionnelle. Bien que le coût par Gb de la HBM4 ait diminué de 30 % par rapport à la HBM3, il reste 3 à 5 fois supérieur à celui de la DDR5 de capacité équivalente. La HBM consomme environ 4 à 5 fois plus de wafers que la DDR5. Le procédé TSV réduit considérablement la densité de bits de la puce HBM par rapport à la DDR de spécifications équivalentes – la densité de bits de la D1z DDR4 de SK Hynix est de 0,296 Gb/mm², soit 85 % de plus que celle de sa HBM3 (0,16 Gb/mm²). La surface supplémentaire requise par le TSV et le processus d'empilement et de packaging complexe sont les principales raisons du coût élevé de la HBM.

En résumé : La DRAM traditionnelle recherche un « bon marché suffisant », tandis que la HBM recherche une « bande passante extrême » – c'est une confrontation entre les voies techniques « priorité au coût » et « priorité à la bande passante ».

Crise du mur de la mémoire : pourquoi les grands modèles d'IA ont-ils absolument besoin de la HBM ?

La dépendance des grands modèles d'IA à la HBM trouve sa source dans un goulet d'étranglement fondamental appelé le « mur de la mémoire » (Memory Wall).

Au cours des 20 dernières années, la puissance de calcul des GPU a été multipliée par 60 000, tandis que la bande passante de la DRAM n'a été multipliée que par 100. La vitesse d'amélioration de la puissance de calcul est bien supérieure à celle de l'approvisionnement en données – comme une voiture de course dont la puissance a explosé, mais dont le système d'alimentation en carburant est encore aux spécifications d'il y a 20 ans. Le GPU est le moteur, la HBM est le système d'injection de carburant ; si l'apport en carburant ne suit pas, même le moteur le plus puissant tournera à vide.

Le mécanisme de fonctionnement des grands modèles de langage amplifie cette contradiction. La génération de réponses par les modèles d'IA ne consiste pas simplement à rechercher des informations statiques, mais à maintenir en continu un « état de travail » comprenant une fenêtre de contexte, un cache de clés-valeurs (KV Cache), des activations intermédiaires et des décisions de routage. Ces données doivent être accessibles en temps réel avec une latence ultra-faible et toujours disponibles. Lors du traitement d'une séquence complète de tokens, le modèle doit accéder et mettre à jour en continu le contexte – même une légère augmentation de la latence mémoire peut entraîner une baisse du débit, des retards de réponse, voire obliger l'opérateur à augmenter le matériel.

Phase d'entraînement : les grands modèles à des billions de paramètres doivent itérer de manière répétée sur des masses de données. Chaque propagation avant et arrière implique la lecture et la mise à jour d'une quantité massive de paramètres. La bande passante de l'ordre du To/s offerte par la HBM est un facteur déterminant pour réduire le temps d'entraînement.

Phase d'inférence : avec le développement accéléré des grands modèles multimodaux et des agents IA, le nombre d'appels de tokens augmente rapidement. Le goulot d'étranglement des applications d'inférence n'est souvent pas « la vitesse de calcul », mais « la vitesse à laquelle les données sont fournies ». La bande passante mène directement à la HBM.

Au niveau système, l'IA fonctionne sur une architecture mémoire hiérarchique : la HBM fournit des données aux accélérateurs, la DRAM stocke l'état en temps réel et la mémoire de conversation, et les SSD basés sur NAND offrent un stockage persistant pour les ensembles de données, les embeddings, les index de recherche, les logs et les points de contrôle. La HBM se trouve à l'emplacement le plus proche du cœur de calcul, assumant les tâches d'approvisionnement en données les plus fréquentes et les plus urgentes – aucune autre mémoire ne peut la remplacer.

C'est pourquoi tous les accélérateurs IA de pointe utilisés pour l'entraînement et l'inférence de l'IA générative utilisent la HBM. La HBM n'est pas un « accessoire optionnel » pour l'IA, mais une « bouteille d'oxygène » qui détermine la vitesse à laquelle l'IA peut progresser.

Déséquilibre offre-demande : une pénurie structurelle qui dure plusieurs années

La demande de HBM est rigide, l'offre est « verrouillée ».

Côté demande : en 2026, les dépenses mondiales en infrastructure IA atteindront 450 milliards de dollars, dont la part de l'inférence dépassera pour la première fois les 70 %, stimulant ainsi une forte demande de GPU, de HBM et de puces réseau haute vitesse. La croissance de la demande de HBM en 2026 est principalement tirée par la mise à niveau de la capacité de production des ASIC IA. La capacité HBM par puce IA passera de 96 Go/192 Go à 216 Go/288 Go. Bien que la plateforme Rubin de Nvidia maintienne la capacité HBM par GPU au même niveau que la génération précédente, des volumes d'expédition plus élevés continuent de faire grimper la demande globale. Les dépenses d'investissement totales des neuf principaux fournisseurs de services cloud dans le monde devraient atteindre environ 830 milliards de dollars en 2026, en hausse de 79 % sur un an.

Côté offre : bien que les trois grands fabricants (Samsung, SK Hynix, Micron) aient orienté 70 % de leur nouvelle capacité ou de leur capacité réaffectable vers la HBM, le déficit de capacité en HBM reste compris entre 50 % et 60 %. Au premier trimestre 2026, toute la capacité de production de HBM des trois grands était vendue. Selon les données de SemiAnalysis, l'offre de DRAM en 2026 est inférieure à la demande d'environ 7 %, avec un déficit de 6 % pour la HBM, qui passera à 9 % en 2027.

Plus important encore, l'offre est rigide. Même si les trois grands décidaient maintenant d'augmenter leur capacité, en raison des contraintes physiques liées au procédé TSV, au rendement du packaging avancé et aux délais de livraison des équipements, la nouvelle capacité ne pourrait être libérée au plus tôt qu'en 2028-2029. Les banques d'investissement internationales estiment généralement que la pénurie structurelle de HBM durera au moins jusqu'en 2028. Le PDG de Nvidia, Jensen Huang, a clairement déclaré que la pénurie mondiale d'approvisionnement en HBM « n'est pas du tout une fluctuation de marché à court terme, mais un blocage structurel de l'industrie qui durera plusieurs années ».

Côté prix : Samsung Electronics et SK Hynix ont augmenté le prix de l'approvisionnement en HBM3E 2026 de près de 20 %. Le prix contractuel initial de la HBM4 à 12 couches devrait être supérieur de plus de 10 % à celui de la HBM3E à 12 couches en 2025.

Structure du marché : qui domine cette révolution de la mémoire ?

Le marché de la HBM présente une concentration très élevée. Les prévisions des analystes indiquent que SK Hynix détiendra environ 52 % des parts de marché en volume en 2026, Samsung Electronics environ 39 %, Micron environ 8 %, et les acteurs chinois continentaux une part très faible. En termes de chiffre d'affaires, le chiffre d'affaires HBM de SK Hynix en 2026 pourrait atteindre 59,5 milliards de dollars, se classant confortablement premier mondial.

Au premier trimestre 2026, sur le marché mondial de la HBM, SK Hynix détenait environ 51,4 % de parts de marché. TrendForce s'attend à ce que sa part de marché HBM pour l'ensemble de l'année 2026 se maintienne autour de 50 % ; Counterpoint prévoit même que sa part sur le marché de la HBM4 atteindra 54 %.

Les marges brutes des trois grands fabricants ont dépassé 70 %, voire 80 %. La répartition des profits de la HBM suit une structure « pyramidale » – plus on se rapproche du cœur technique et des goulots d'étranglement, plus la part est élevée.

Parallèlement, un phénomène intéressant se produit : la rentabilité de la DRAM générique dépasse structurellement celle de la HBM. Au premier trimestre 2026, l'écart de marge opérationnelle entre la DRAM générique et la HBM s'est creusé à plus de 15 points de pourcentage. Les calculs du marché montrent qu'en 2026, allouer la capacité à la DRAM générique génère plus du double du chiffre d'affaires par wafer que la HBM, et une marge brute près de trois fois supérieure. C'est la raison pour laquelle SK Hynix envisage de réorienter une partie de ses ressources vers la DRAM générique – mais cela confirme précisément que le marché global de la mémoire est en plein boom.

Perspective d'investissement : opportunités dans le super-cycle de la HBM

La pénurie structurelle de HBM et la tendance à la hausse des prix offrent aux investisseurs une logique industrielle claire.

Les fabricants de mémoire en sont les bénéficiaires directs. SK Hynix (Corée), Samsung Electronics (Corée) et Micron (États-Unis) tirent l'essentiel des super-profits de la chaîne d'approvisionnement grâce à leur monopole technologique et à la rareté des capacités. Morgan Stanley, sur la base d'une prévision de hausse de 62 % du prix moyen de la DRAM d'ici 2026, a relevé ses prévisions de bénéfices pour les fabricants de mémoire de 56 % à 63 %.

Les fournisseurs en amont en bénéficient également. L'expansion massive des capacités des grands fabricants de mémoire stimule directement la demande d'équipements semi-conducteurs tels que la gravure, le dépôt en couche mince et les tests. La prospérité de la chaîne industrielle se transmet de l'amont vers l'aval. La demande de packaging avancé pour la HBM favorise également l'industrialisation des technologies de packaging 2.5D comme le CoWoS.

Les fabricants de puces IA sont les demandeurs finaux de HBM. Les leaders des puces IA comme Nvidia (États-Unis) et Broadcom (États-Unis) voient leur demande d'achat de HBM augmenter continuellement. La capacité HBM du GPU Nvidia Rubin Ultra passera à 1 To.

Gate Stock : participez en un seul clic à l'investissement mondial dans la mémoire et l'IA

Pour les investisseurs souhaitant participer à ce super-cycle de la mémoire, Gate Stock offre une voie d'accès pratique.

Actuellement, Gate Stock a mis en place un système de trading 7j/24h couvrant les trois principaux marchés que sont les États-Unis, Hong Kong et la Corée, prenant en charge plus de 10 000 actions américaines et ETF, plus de 1 500 actions de Hong Kong et plus de 1 000 actions coréennes, couvrant au total plus de 12 500 actions et ETF mondiaux. Les titres incluent Apple, Nvidia, Microsoft, Tencent Holdings, Xiaomi Group, Samsung Electronics, SK Hynix et d'autres sociétés cotées mondialement représentatives.

Les utilisateurs peuvent utiliser l'USDT via un compte unifié Gate pour participer en un seul clic aux investissements en actions mondiales, avec une prise de participation minimale de 0,01 action, et bénéficier de droits tels que le versement de dividendes. La plateforme prend également en charge les services de fractionnement et de regroupement d'actions, et a déjà réalisé une couverture complète sur les applications et le Web.

En plus des transactions avant l'ouverture, pendant les heures de négociation et après la clôture, Gate Stock prend en charge les transactions de nuit et de week-end, dépassant les limites horaires des marchés boursiers traditionnels. Le service de transfert de titres entre courtiers sera également bientôt disponible, améliorant encore la flexibilité et la commodité de la gestion des actifs en actions pour les utilisateurs.

Mode de transaction : après avoir rechargé leur compte unifié sur la plateforme Gate, les utilisateurs peuvent sélectionner l'action souhaitée dans le module de trading actions et effectuer des achats et des ventes en USDT. La plateforme propose des cotations en temps réel, des outils d'analyse technique et un choix de types d'ordres (ordres au marché, ordres limités, etc.), avec un processus de fonctionnement similaire à l'expérience de trading d'actifs cryptographiques.

Conclusion

La différence entre la HBM et la DRAM est fondamentalement une divergence entre deux voies techniques : « priorité à la bande passante » et « priorité au coût ». Dans un contexte d'expansion continue de la puissance de calcul IA, la HBM, grâce à son empilement 3D et à la technologie TSV, a réussi à franchir le « mur de la mémoire », devenant un composant central irremplaçable pour l'entraînement et l'inférence des grands modèles.

En 2026, le marché mondial des semi-conducteurs dépasse 1 510 milliards de dollars, les puces mémoire augmentent de 250 %, et le marché de la HBM croît de 58 % pour atteindre 54,6 milliards de dollars. Le déficit de capacité atteint 50 % à 60 %, et toute la capacité des trois grands fabricants est vendue. Il ne s'agit pas d'une fluctuation cyclique ordinaire, mais d'un changement structurel tiré par les dépenses d'investissement à long terme dans les infrastructures IA.

Pour les investisseurs, les trois chaînes que sont les fabricants de mémoire, les équipements et matériaux, et les puces IA offrent une logique industrielle claire. Et le service de trading 7j/24h d'actions américaines, hongkongaises et coréennes proposé par Gate Stock offre aux investisseurs mondiaux un outil flexible et efficace pour participer à ce super-cycle de la mémoire. Alors que le sentiment du marché est extrêmement craintif (indice de peur 14-16), l'écart entre les fondamentaux de l'industrie et le sentiment du marché recèle souvent les opportunités structurelles les plus dignes d'intérêt.

FAQ

Q1 : Quelle est la principale différence entre la HBM et la DRAM ?

La principale différence réside dans l'architecture. La DRAM traditionnelle adopte une architecture plane, améliorant les performances par des mises à niveau de procédé ; la HBM utilise quant à elle la technologie d'empilement 3D, empilant verticalement plusieurs matrices DRAM à l'aide de TSV (Through-Silicon Via) pour obtenir des chemins de données ultra-larges. La bande passante de la HBM3E peut atteindre 1,2 To/s, soit plus de 10 fois celle de la DDR5, mais son coût est également 3 à 5 fois supérieur à celui de la DDR5 de même capacité.

Q2 : Pourquoi les grands modèles d'IA doivent-ils absolument utiliser la HBM ?

L'entraînement et l'inférence des grands modèles nécessitent une lecture et une écriture rapides de masses de paramètres. La croissance de la bande passante de la DRAM traditionnelle est bien inférieure à celle de la puissance de calcul (la puissance de calcul a été multipliée par 60 000 en 20 ans, la bande passante seulement par 100), créant un goulot d'étranglement appelé « mur de la mémoire ». Grâce à une bande passante de l'ordre du To/s, la HBM peut fournir continuellement des données au GPU, évitant que la puissance de calcul ne tourne à vide. Tous les accélérateurs IA de pointe utilisent la HBM.

Q3 : Quels sont les principaux acteurs du marché de la HBM ?

Le marché de la HBM est très concentré. SK Hynix détiendra environ 52 % des parts de marché en volume en 2026, Samsung environ 39 %, et Micron environ 8 %. SK Hynix est le premier en termes de chiffre d'affaires, avec un chiffre d'affaires HBM qui pourrait atteindre 59,5 milliards de dollars en 2026. Toute la capacité de production de HBM des trois grands pour 2026 est vendue, et certains clients ont déjà verrouillé leur capacité jusqu'en 2028.

Q4 : Combien de temps la pénurie de HBM va-t-elle durer ?

Les banques d'investissement internationales estiment généralement que la pénurie de HBM durera au moins jusqu'en 2028. Du côté de la demande, elle est tirée par les dépenses d'investissement dans les infrastructures IA ; du côté de l'offre, elle est contrainte par des limitations physiques telles que le procédé TSV, le rendement de packaging et les délais de livraison des équipements. Même si l'expansion commençait maintenant, la nouvelle capacité ne pourrait être libérée au plus tôt qu'en 2028-2029. Jensen Huang qualifie cette situation de « blocage structurel de l'industrie qui durera plusieurs années ».

Q5 : Comment investir dans les actions liées à la HBM sur la plateforme Gate ?

Gate Stock prend en charge le trading 7j/24h d'actions américaines, hongkongaises et coréennes, couvrant plus de 12 500 actions et ETF. Les utilisateurs peuvent investir en un seul clic en USDT via un compte unifié, avec un investissement minimal de 0,01 action. Les titres liés à la HBM incluent les fabricants de mémoire SK Hynix (Corée), Samsung Electronics (Corée), Micron (États-Unis), ainsi que les fabricants de puces IA comme Nvidia (États-Unis).

BTC-1,13%
ETH0,52%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé