HBM vs GDDR : comment la mémoire à haute bande passante peut-elle dépasser le goulot d'étranglement de la « barrière de mémoire » dans la formation et l'inférence en IA

Dans la compétition d'IA avec des paramètres dépassant le billion, la puissance de calcul GPU est certes un point focal, mais un composant plus discret, mais déterminant pour le plafond de performance, devient le point stratégique de la concurrence — la mémoire à haute bande passante (High Bandwidth Memory, HBM). Si l’on compare le GPU à un moteur ultra-performant avec des dizaines de milliers de cylindres, alors HBM est le système de carburant qui alimente en continu ses données. Si l’approvisionnement en carburant ne suit pas, même le moteur le plus puissant ne pourra que tourner à vide.

Il est généralement reconnu dans l’industrie que le goulot d’étranglement de la puissance de calcul en IA ne se limite plus à l’unité de calcul elle-même, mais est davantage lié à l’efficacité du transfert de données. Les données montrent que, dans une architecture de calcul traditionnelle, la consommation d’énergie liée au transfert de données représente souvent 60 % à 80 % de la consommation totale du système. En inference, le taux d’inactivité du GPU peut atteindre 99 %. La contrainte clé derrière cela est précisément la bande passante mémoire.

Grâce à la technologie d’empilement 3D et aux vias en silicium (TSV), la HBM réalise, par unité de surface, des débits et une efficacité énergétique bien supérieurs à ceux de la mémoire traditionnelle, devenant ainsi la configuration standard pour les accélérateurs IA de géants comme NVIDIA, AMD, Google, etc.

Principe technique : comment la HBM reconstruit-elle le canal de données entre GPU et mémoire

Du “voiture de course plane” à l’“ascenseur vertical”

La HBM n’est pas un nouveau type de mémoire, mais un ensemble de normes d’interface et d’emballage qui définissent “comment faire interconnecter la DRAM à très haute bande passante”. Sa voie technologique principale peut être décomposée en trois niveaux :

Empilement 3D — empiler verticalement plusieurs couches de puces DRAM (actuellement, la norme principale est de 8 à 12 couches, la HBM4 étant poussée à 16 couches), ce qui multiplie par deux ou trois la densité de stockage et le nombre de canaux parallèles sur la même surface physique.

Vias en silicium (TSV) — graver dans chaque couche de puce DRAM des micro-trous de 5 à 10 micromètres de diamètre, remplis de conducteurs pour former des canaux verticaux, permettant une interconnexion à l’échelle des milliers de couches. Contrairement aux circuits imprimés traditionnels où les lignes mesurent des centimètres voire des mètres, la transmission de signal via TSV est réduite à quelques micromètres, ce qui diminue considérablement la perte de signal et la latence.

Interposeur en silicium — la pile HBM est connectée via des bosses microélectroniques à un interposeur en silicium, qui lui-même relie le GPU/CPU à très courte distance, formant un module encapsulé unifié. Toute cette structure est réalisée par des procédés d’emballage avancés comme CoWoS en 2.5D, permettant une intégration à haute densité.

L’innovation clé de cette architecture réside dans la largeur du bus. Une pile HBM typique possède une largeur de bus de 1024 bits, et la HBM3E peut aller jusqu’à 2048 bits. Par exemple, la dernière HBM3E en production de SK Hynix offre une capacité de 24 Go par puce, avec un débit dépassant 1 To/s. En comparaison, une mémoire GDDR traditionnelle a une largeur de 32 bits (par puce) ou 384 bits (pour plusieurs puces combinées), avec une capacité et un débit bien inférieurs.

La logique de conception de la HBM est “large et lent” — en échange d’un grand nombre de canaux parallèles, chaque canal fonctionnant à une fréquence relativement basse, ce qui améliore considérablement l’efficacité énergétique par rapport à une architecture à haute fréquence. À l’inverse, GDDR suit une logique “étroit et rapide” — en exploitant des fréquences plus élevées sur moins de canaux pour maximiser le débit. Ces deux philosophies conviennent à des scénarios très différents : la HBM vise un débit extrême, tandis que GDDR cherche un compromis entre débit et coût.

HBM vs GDDR6 : un duel “large et lent” contre “étroit et rapide”

La HBM et la GDDR6 appartiennent toutes deux à la famille de la mémoire DRAM, leur mission principale étant de fournir un canal d’accès aux données pour le GPU, mais elles diffèrent fondamentalement dans leurs objectifs de conception, leurs performances et leur structure de coûts.

Bande passante : La HBM3E peut atteindre 1,2 To/s par pile, et la prochaine génération HBM4 devrait dépasser 2,0 To/s. La GDDR6X plafonne à environ 1 To/s par carte, approchant déjà la limite physique. Mais en termes d’efficacité énergétique par unité de bande passante, la HBM est nettement supérieure, ce qui se traduit par un avantage quantifiable en coûts d’exploitation dans les déploiements massifs en centres de données IA.

Consommation et latence : Grâce à la voie verticale très courte des TSV, la consommation de la HBM est réduite d’environ 30 % par rapport à la GDDR5. En termes de latence, la GDDR dépend des lignes PCB et de la communication avec le GPU, avec des délais généralement de l’ordre de microsecondes ; la HBM, intégrée directement à proximité du GPU, voit sa latence comprimée à l’échelle de la nanoseconde. Notons que, dans les scénarios à débit extrême, la latence d’accès aléatoire de la HBM est légèrement supérieure à celle de la GDDR, mais pour les accès massifs en flux continu (typique de l’entraînement et de l’inférence IA), le débit est la contrainte principale.

Coût : C’est là que la HBM présente son principal inconvénient. Selon les données industrielles, le coût par Go de HBM dépasse 25 dollars, contre seulement 5 à 8 dollars pour la GDDR6. La HBM représente jusqu’à 60-80 % du coût total d’un GPU haut de gamme. La GDDR6, en termes de coût par bande passante, est en réalité plus avantageuse — lorsque la demande de bande passante absolue n’est pas très élevée, la GDDR6 offre un meilleur rapport coût-efficacité.

En résumé, le choix entre HBM et GDDR dépend essentiellement d’un compromis entre performance limite et contraintes de coût. La HBM sert à des scénarios où “il faut atteindre un certain seuil de bande passante pour que ça fonctionne” — par exemple, l’inférence de modèles très volumineux de centaines de milliards de paramètres. La GDDR6, elle, vise “à obtenir le meilleur rapport performance/coût dans un niveau de performance acceptable”, comme pour le déploiement de modèles de taille moyenne (7 à 13 milliards de paramètres).

Les deux ne sont pas en concurrence directe, mais représentent des stratégies parallèles pour répondre à différents besoins. Cependant, dans l’entraînement IA et l’inférence à grande échelle, l’avantage de la HBM tend à faire sortir la GDDR du peloton de tête.

“Mur de la mémoire” : pourquoi la croissance des modèles IA plus grands entraîne une demande exponentielle en HBM

Pour comprendre la croissance explosive de la demande en HBM, il faut revenir à un goulot d’étranglement fondamental du calcul IA — le “mur de la mémoire” (Memory Wall).

Le décalage entre la croissance de la puissance de calcul et celle de la bande passante

Au cours des trente dernières années, la puissance de calcul des processeurs a suivi la loi de Moore, doublant environ tous les 18 à 24 mois ; mais la vitesse d’augmentation de la bande passante mémoire a été beaucoup plus lente. Selon des études sur le mur de la mémoire en IA, la puissance de calcul des modèles IA double environ tous les deux ans (croissance de 3x), tandis que la bande passante mémoire n’augmente que d’environ 1,6x, et la bande passante des interconnexions encore moins. Cela signifie qu’à chaque augmentation de la puissance de calcul, la capacité de transfert de données devient relativement “dévaluée”.

Ce paradoxe est particulièrement visible lors de l’inférence. La phase d’entraînement repose principalement sur la multiplication matricielle (GEMM), avec une forte densité de calcul, une intensité arithmétique pouvant dépasser 100 FLOPs/byte ; en revanche, la phase d’inférence repose sur la multiplication matrice-vecteur (GEMV), avec une faible intensité arithmétique souvent inférieure à 2 FLOPs/byte. Plus cette intensité est faible, plus la performance du système dépend du débit mémoire plutôt que de la puissance de calcul — c’est l’effet “mur de la bande passante”.

Le “fardeau de transfert” des grands modèles en inférence

Le processus d’inférence pour de grands modèles peut se résumer ainsi : à chaque génération d’un token, il faut charger tous les paramètres du modèle depuis la mémoire vers le noyau de calcul. Par exemple, pour le modèle Llama 3 70B en FP16, la taille des poids est d’environ 140 Go. À chaque token généré, ces 140 Go doivent être transférés une fois. Si l’on veut générer 30 tokens par seconde, la bande passante mémoire entre HBM et le noyau doit supporter environ 4,2 To/s.

Ce besoin approche ou dépasse déjà la limite des matériels IA actuels. La HBM de la NVIDIA H100 SXM5 offre une bande passante de 3,35 To/s. Même avec le meilleur accélérateur IA, face à un modèle de 70 milliards de paramètres, la bande passante mémoire est à peine suffisante. Avec des modèles de centaines de milliards ou de trillions de paramètres, la demande de bande passante croîtra de façon linéaire, voire superlinéaire.

Capacité et bande passante : une double contrainte

La capacité mémoire est également critique. Si la taille totale d’un modèle dépasse la capacité d’une seule HBM, il faut répartir le modèle sur plusieurs GPU — ce qu’on appelle la parallélisation tensorielle. Mais cette division entraîne des coûts de communication entre GPU, qui peuvent finalement réduire l’efficacité globale.

Ainsi, la valeur de la HBM réside dans deux dimensions : la bande passante qui limite la vitesse de génération et la latence, et la capacité qui détermine si le modèle peut tenir dans une seule carte, combien de cartes sont nécessaires, et le coût de la communication inter-GPU.

Le chemin industriel actuel est clair : la HBM devient la configuration “standard” pour la puissance IA. Selon TrendForce, la demande en HBM devrait augmenter de plus de 130 % en 2025, et continuer à croître de plus de 70 % en 2026, à partir d’une base déjà élevée. La HBM, qui était autrefois un composant secondaire dans le traitement graphique, devient un élément central de la chaîne de puissance IA.

Impact sur toute la chaîne industrielle : de la sélection technologique à un marché de plusieurs centaines de milliards

Croissance du marché

La croissance du marché HBM dépasse largement les prévisions initiales. Selon SEMI Chine, d’ici 2026, la taille du marché HBM atteindra 54,6 milliards de dollars, soit près de 40 % du marché global de la DRAM. Micron prévoit un taux de croissance annuel composé (CAGR) d’environ 40 %, passant d’environ 35 milliards de dollars en 2025 à 100 milliards en 2028 — un chiffre supérieur à la taille totale du marché DRAM en 2024.

Contraintes d’offre rigides

Mais cette explosion de la demande contraste avec une capacité de production encore limitée. Bien que Samsung, SK Hynix et Micron aient déjà réorienté 70 % de leur capacité supplémentaire ou modulable vers la production de HBM, le déficit global reste de 50 à 60 %.

Ce déficit provient des barrières techniques élevées de fabrication de la HBM. La production nécessite des procédés avancés de fabrication de DRAM (déjà poussés à 1β nm), ainsi que des techniques d’emballage sophistiquées : gravure TSV, collage de micro-bosses, emballage à l’échelle wafer, etc. TSMC, avec sa plateforme CoWoS, prévoit d’augmenter sa capacité à plus de 125 000 wafers par mois d’ici fin 2026, soit une croissance de 79 %, mais cela ne suffit pas encore à satisfaire la demande de clients comme NVIDIA, AMD ou Broadcom.

Risques dans la chaîne d’approvisionnement et transmission des prix

Ce déficit se traduit par une hausse des prix. Le prix unitaire de la HBM3E a augmenté de 5 à 10 % en 2025. De plus, la concentration de la capacité de production dans les trois principaux fabricants, combinée à la forte demande, entraîne une réduction de l’offre de mémoire DDR grand public, avec des prix qui devraient continuer à augmenter jusqu’à la fin 2026. La pénurie de HBM influence ainsi toute la chaîne mémoire.

En juin 2026, Jensen Huang a confirmé que SK Hynix, Samsung et Micron avaient tous obtenu la certification et avaient commencé la production en masse de puces HBM4. Samsung a lancé la production en volume dès février 2026. Même avec cette expansion, le déficit entre l’offre et la demande en HBM restera d’environ 50 % en 2025-2026. La stabilité du marché reste donc un défi à court terme, dans un contexte où l’expansion de la capacité, les contraintes d’emballage et la croissance rapide de la demande IA créent un environnement dynamique mais tendu.

Conclusion

De l’innovation fondamentale dans la conception technique, à la dépendance critique dans les scénarios d’IA, puis à la déséquilibre de l’offre et de la demande dans toute la chaîne industrielle, la HBM est passée d’un sous-système mémoire à un enjeu stratégique dans la compétition pour l’infrastructure IA.

L’indispensabilité de la HBM dans l’entraînement et l’inférence IA repose sur une logique de calcul très simple : lorsque la taille du modèle dépasse un certain seuil, la bande passante n’est plus une “option d’optimisation”, mais une “condition d’activation” — en dessous du seuil, le système ne peut pas fonctionner efficacement. La GDDR6, bien que plus avantageuse en termes de coût, ne peut rivaliser en termes de bande passante et d’efficacité énergétique pour des modèles de l’ordre du billion de paramètres. La différence structurelle entre ces deux types de mémoire détermine que, dans le domaine clé de la puissance IA, la HBM et la GDDR ne sont pas simplement en compétition, mais répondent à des besoins hiérarchisés.

À l’avenir, la production de HBM4 (avec un débit par pile prévu supérieur à 2 To/s), la maturation de la technologie d’empilement à 16 couches, et l’introduction de nouvelles techniques d’emballage hybrides, renforceront encore la performance de la HBM. Cependant, des acteurs comme Huawei explorent déjà des voies pour réduire leur dépendance à la HBM via des optimisations algorithmiques, architectures SRAM et intégration mémoire-calcul. La capacité de la HBM à maintenir son avance technologique, ainsi que la résolution de ses contraintes d’approvisionnement lors des cycles d’expansion, seront parmi les variables clés de l’industrie de la puissance IA dans les années à venir.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé