Futures
Accédez à des centaines de contrats perpétuels
CFD
Or
Une plateforme pour les actifs mondiaux
Options
Hot
Tradez des options classiques de style européen
Compte unifié
Maximiser l'efficacité de votre capital
Trading démo
Introduction au trading futures
Préparez-vous à trader des contrats futurs
Événements futures
Participez aux événements et gagnez
Demo Trading
Utiliser des fonds virtuels pour faire l'expérience du trading sans risque
Lancer
CandyDrop
Collecte des candies pour obtenir des airdrops
Launchpool
Staking rapide, Gagnez de potentiels nouveaux jetons
HODLer Airdrop
Conservez des GT et recevez d'énormes airdrops gratuitement
Pre-IPOs
Accédez à l'intégralité des introductions en bourse mondiales
Points Alpha
Tradez on-chain et gagnez des airdrops
Points Futures
Gagnez des points Futures et réclamez vos récompenses d’airdrop.
Investissement
Simple Earn
Gagner des intérêts avec des jetons inutilisés
Investissement automatique
Auto-invest régulier
Double investissement
Profitez de la volatilité du marché
Staking souple
Gagnez des récompenses grâce au staking flexible
Prêt Crypto
0 Fees
Mettre en gage un crypto pour en emprunter une autre
Centre de prêts
Centre de prêts intégré
Promotions
Centre d'activités
Participez et gagnez des récompenses
Parrainage
20 USDT
Invitez des amis et gagnez des récompenses
Programme d'affiliation
Obtenez des commissions exclusives
Gate Booster
Développez votre influence et gagnez des airdrops
Annoncement
Mises à jour en temps réel
Blog Gate
Articles sur le secteur de la crypto
AI
Gate AI
Votre assistant IA polyvalent pour toutes vos conversations
Gate AI Bot
Utilisez Gate AI directement dans votre application sociale
GateClaw
Gate Blue Lobster, prêt à l’emploi
Gate for AI Agent
Infrastructure IA, Gate MCP, Skills et CLI
Gate Skills Hub
+10K compétences
De la bureautique au trading, une bibliothèque de compétences tout-en-un pour exploiter pleinement l’IA
GateRouter
Choisissez intelligemment parmi plus de 40 modèles d’IA, avec 0 % de frais supplémentaires
De la chute d'Elpida à l'ascension de Micron : la reconstruction de la logique fondamentale des puces de stockage
En 2012, le principal fabricant mondial de mémoire DRAM, Elpida, a officiellement déclaré faillite.
En tant qu’entreprise emblématique de l’industrie des semi-conducteurs japonaises, Elpida a intégré les technologies clés des trois géants NEC, Hitachi et Mitsubishi, même avec l’intervention du gouvernement japonais pour un financement de secours, la tendance à la déclin n’a pas pu être inversée. Après avoir accumulé une dette colossale de 430 milliards de yens et demandé une protection contre la faillite, l’entreprise a finalement été rachetée par Micron Technology aux États-Unis pour 200 milliards de yens, puis intégrée et absorbée, sortant définitivement de la scène industrielle.
En regardant l’évolution de l’industrie, Intel, Texas Instruments et Motorola ont tous tenté leur chance dans le domaine de la DRAM, avant de se retirer successivement du marché. L’ensemble de l’industrie japonaise des semi-conducteurs de mémoire, passant de l’apogée à l’effondrement en moins de vingt ans. Par la suite, des entreprises sud-coréennes ont pris le relais, Samsung et SK Hynix s’appuyant sur des subventions gouvernementales, menant une guerre des prix agressive pour balayer le marché mondial, comprimant la marge de tous leurs concurrents.
Et Micron est devenue la dernière survivante, étant actuellement la seule entreprise aux États-Unis capable de produire en masse des puces de stockage avancées. Basée à Boise, dans l’Idaho, cette société a longtemps évolué dans l’ombre des industries de Nvidia et TSMC, sans s’impliquer dans la conception de GPU ni dans la fabrication de puces logiques. Mais avec la croissance explosive de la demande en puissance de calcul AI, un vieux goulot d’étranglement physique, dormant depuis des décennies, devient de plus en plus évident : le temps d’attente pour le transfert de données par les unités de calcul dépasse désormais celui nécessaire pour le calcul lui-même. Ce problème, propre à l’industrie, ne peut être résolu par aucune optimisation logicielle, seul un progrès hardware peut le surmonter, et c’est précisément le domaine dans lequel Micron, avec quarante ans d’expertise, s’est profondément investi.
Les limites du calcul AI : le mur de mémoire, un défi commun à l’industrie
Selon l’architecture de Von Neumann, les unités de calcul GPU et TPU sont physiquement indépendantes de la mémoire principale. Les unités de calcul disposent de SRAM de petite capacité intégrée comme cache sur la puce, tandis que les poids des grands modèles et les données d’entrée sont principalement stockés en DRAM hors puce, nécessitant un transfert via une couche intermédiaire sous forme de signaux électriques.
Prenons l’exemple d’un grand modèle linguistique de 70 milliards de paramètres : en précision FP16, les poids du modèle nécessitent environ 140 GB de mémoire physique. Les cartes d’IA haut de gamme disposent généralement de 80 à 192 GB de mémoire vidéo, ce qui limite l’exécution de modèles de grande taille à une configuration multi-cartes. Au cours des dix dernières années, la puissance de calcul des puces a connu une croissance exponentielle, mais la bande passante mémoire, limitée par le nombre de broches physiques, la fréquence du signal et la dissipation thermique, a progressé bien plus lentement. Lorsque la performance de calcul dépasse la capacité d’approvisionnement en mémoire, les unités de calcul se retrouvent à attendre inactives, ce qui réduit considérablement leur efficacité.
L’IA se divise en deux scénarios principaux : l’entraînement et l’inférence, dont la logique sous-jacente diffère fortement. Lors de l’entraînement, le traitement massif en parallèle est privilégié, avec des données réutilisées en boucle dans le cache du noyau de calcul, ce qui augmente l’intensité arithmétique. Le goulet d’étranglement principal est la vitesse de calcul, pas la mémoire, ce qui constitue un scénario typiquement intensif en calcul, où la puissance de Nvidia peut s’exprimer pleinement.
En revanche, lors de l’inférence, la logique est totalement différente : les grands modèles linguistiques génèrent du texte token par token en utilisant un mécanisme autoregressif. Pour éviter de recalculer sans cesse les scores d’attention historiques, le système doit construire un cache KV en mémoire vidéo. Par exemple, pour une longueur de contexte d’environ 4096 tokens, une seule requête utilisateur occupe environ 1,34 GB de mémoire vidéo ; en soustrayant la taille des poids du modèle, il ne reste que 20 GB pour le cache KV sur une A100, ce qui limite à 14 le nombre de requêtes simultanées. La charge arithmétique en inférence est très faible, la performance étant entièrement limitée par la bande passante mémoire, faisant de cette tâche une opération intensive en accès mémoire, où la vitesse de transfert physique de HBM détermine directement le débit du service.
Du point de vue énergétique, la lecture d’un bit de données depuis la HBM hors puce consomme environ 10 à 20 pJ/bit, tandis qu’une opération flottante FP16 ne consomme que 0,1 pJ. Le coût en énergie du transfert de données est donc 100 à 200 fois supérieur à celui du calcul. Dans les scénarios d’inférence à grande échelle, si l’optimisation de l’accès mémoire n’est pas réalisée, une grande partie de l’électricité des centres de données sera consommée par le transfert sur le bus, plutôt que par le calcul effectif, ce qui motive en partie l’investissement continu de Micron dans la technologie HBM.
Les fondamentaux de Micron et sa position dans la chaîne d’approvisionnement AI
Micron est un fabricant IDM intégré, réalisant en interne la conception des puces, la fabrication des wafers, ainsi que l’assemblage et le test, avec une usine spécialisée dans la mémoire de stockage, sans s’impliquer dans les CPU ou GPU. La majorité de ses revenus provient de la DRAM, représentant plus de 70 %, tandis que la NAND représente 20 à 30 %, et la NOR une part plus petite. La DRAM constitue le support principal des modules de mémoire génériques, la NAND est essentielle pour les SSD, et la NOR est principalement utilisée dans l’électronique automobile et industrielle pour le démarrage rapide du code, un marché de niche mais irremplaçable.
Micron divise ses activités en quatre segments : les solutions pour centres de données et serveurs, les terminaux mobiles pour smartphones, le stockage d’entreprise via SSD, et l’électronique embarquée pour l’automobile et l’industrie.
Dans la chaîne d’approvisionnement AI, Nvidia conçoit les GPU, TSMC en assure la fabrication, mais Micron, bien qu’absente de ces deux étapes, fournit des composants clés pour les cartes d’accélération AI. La logique des grands modèles ne peut pas être supportée uniquement par les GPU, la limite de performance en inférence étant la bande passante mémoire. Nvidia doit donc intégrer étroitement la mémoire haute bande passante HBM. Micron, avec SK Hynix et Samsung, est un fournisseur clé de HBM, ses produits étant intégrés dans des modules complets via l’emballage avancé CoWoS de TSMC, formant un module de calcul AI complet. Le GPU est le cerveau de la puissance AI, la HBM étant le canal de transfert de données à haute vitesse, les deux étant indispensables.
Sur le plan concurrentiel, Nvidia construit sa barrière grâce à l’architecture et à l’écosystème, tandis que Micron crée des barrières industrielles par ses procédés de fabrication et ses techniques d’empilement. Chaque génération de HBM voit une augmentation de la bande passante, reposant sur des procédés de TSV (via en silicium) plus précis et un nombre accru de couches empilées, ce qui rend l’accès à la technologie très difficile.
DRAM : l’infrastructure fondamentale derrière la puissance de calcul AI
Dans l’architecture informatique traditionnelle, la DRAM, en tant que mémoire principale, répond parfaitement au décalage de vitesse entre le stockage massif sur disque dur à faible vitesse et le CPU à haute vitesse avec un petit cache. Lors de l’exécution d’un programme, les données sont chargées du disque dur vers la DRAM, le CPU effectuant des lectures et écritures à une latence nanoseconde et une bande passante ultra élevée, le tout en temps réel pour le système d’exploitation et les processus en arrière-plan. La DRAM est volatile, avec une perte de données en cas de coupure de courant, nécessitant une actualisation continue pour maintenir les données, la cellule de base étant constituée d’un transistor et d’un condensateur.
Avec l’ère de l’IA, la forme et la logique d’utilisation de la DRAM ont été complètement repensées. Le noyau de calcul s’est déplacé du CPU vers le GPU, la DRAM ne se limite plus à la mémoire DDR sur la carte mère, mais adopte la mémoire haute bande passante HBM, empilée verticalement via la technologie TSV, intégrée directement avec le GPU dans une couche intermédiaire en silicium.
Actuellement, la valeur centrale de la DRAM se concentre sur deux dimensions : d’une part, le chargement des poids du grand modèle, par exemple 70 milliards de paramètres en FP16 nécessitant 140 GB, qui doit être entièrement chargé dans la HBM avant l’inférence ; d’autre part, le cache KV dynamique, où la génération de texte par le modèle nécessite de stocker l’historique, la taille du contexte étant plus grande, plus la mémoire vidéo est occupée, limitant la capacité de traitement simultané d’un serveur. Lors de l’entraînement, la consommation de mémoire est encore plus extrême, avec en plus la nécessité de stocker plusieurs couches de résultats intermédiaires, ainsi que des données supplémentaires pour l’optimiseur, la demande en mémoire pouvant atteindre 3 à 4 fois celle de l’inférence.
Face au mur de mémoire, la croissance de la puissance GPU dépasse largement celle de la bande passante mémoire, ce qui entraîne une sous-utilisation fréquente du GPU lors de l’inférence. La mise à niveau de la bande passante HBM détermine directement le débit maximal des serveurs d’inférence AI, ce qui constitue la logique fondamentale pour l’investissement de Micron dans la R&D HBM.
La triade du marché : Samsung, SK Hynix, Micron, une compétition différenciée
Le marché mondial de la DRAM est dominé par trois géants : Samsung, SK Hynix et Micron, qui détiennent ensemble environ 95 % des parts de marché, chacun ayant ses avantages spécifiques.
En termes de processus de fabrication, Micron est en tête, ayant toujours été le premier à réaliser la production en masse de DRAM à haute densité à partir des nœuds 1-alpha, 1-beta et 1-gamma, avec une production de wafers plus élevée et un coût par bit plus faible, ce qui lui confère une marge bénéficiaire importante. Samsung, avec ses processus en dessous de 14 nm, rencontre des problèmes de rendement, ralentissant son rythme d’innovation ; SK Hynix se situe dans une position similaire à Micron.
Dans le domaine HBM, la situation est très différente : SK Hynix domine avec plus de 50 % de parts de marché, étant le fournisseur exclusif des GPU haut de gamme d’Nvidia, grâce à sa technologie d’emballage MR-MUF, qui offre un avantage en empilement multicouche et en gestion thermique. Micron, arrivé plus tard, a sauté directement la HBM3 pour se concentrer sur la HBM3E, utilisant une technologie d’emballage TC-NCF, plus difficile à fabriquer, avec une capacité de production et une part de marché inférieures à SK Hynix. Samsung, quant à elle, n’a pas réussi à faire passer ses HBM3 et HBM3E avec succès dans les tests Nvidia en raison de problèmes de chaleur et de consommation, manquant ainsi la fenêtre de l’avantage concurrentiel dans la mémoire AI. Elle mise désormais sur la HBM4 pour tenter de rattraper son retard.
L’efficacité énergétique est une différenciation clé pour Micron : à bande passante équivalente, ses HBM consomment 20 à 30 % de moins que celles de ses concurrents. Bien que cette différence semble minime à l’échelle d’une seule carte, déployée à grande échelle dans des dizaines de milliers de serveurs, elle permettrait de réduire considérablement la facture électrique et les coûts de refroidissement. Par ailleurs, sa technologie de procédé LPDDR5X en 1-gamma atteint 9,6 Gbps, avec une consommation en baisse de 30 %, adaptée aux besoins d’autonomie des modèles IA mobiles.
En termes de capacité, Samsung, avec sa taille dominante, reste en tête, pouvant contrôler le marché par la guerre des prix ; Micron, avec une capacité moindre, évite la guerre des prix en se concentrant sur la valeur technologique, en utilisant ses procédés et son efficacité énergétique pour verrouiller sa position.
En dehors de la DRAM et de la HBM, la NAND et la NOR constituent la seconde courbe de croissance de Micron. La NAND, où Micron se classe 4e ou 5e mondial avec une part de marché de 10 à 15 %, est principalement utilisée dans les SSD. La NOR, abandonnant le marché grand public bas de gamme, se concentre sur les secteurs automobile et industriel haut de gamme, en dominant la norme d’interface à haute vitesse Octal xSPI, certifiée jusqu’au niveau ASIL-D, avec une fourniture à long terme via ses propres usines, évitant la guerre des prix et valorisant la fiabilité et la performance pour des clients clés.
La logique d’évaluation de Micron et ses comparaisons sectorielles
Actuellement, le cours de l’action Micron tourne autour de 600 dollars, avec un ratio P/E de 21,44, une capitalisation d’environ 650 milliards de dollars. Les banques d’investissement de Wall Street fixent leur objectif de cours à 12 mois entre 400 et 675 dollars, avec une moyenne proche de 500 dollars, ce qui indique une sous-évaluation globale.
Historiquement, le secteur des puces de mémoire est cyclique : la conjoncture favorable entraîne une expansion de la capacité, suivie d’un excès d’offre et d’une chute des prix. Le marché attribue généralement un ratio P/E de 8 à 10. La forte valorisation actuelle de Micron repose principalement sur la transformation de ses revenus par la HBM : alors que la mémoire DDR traditionnelle est fortement soumise aux fluctuations de l’offre et de la demande, la HBM, avec sa production sous contrat verrouillé, a déjà vendu toute sa capacité pour 2026, ses revenus étant désormais stabilisés par des contrats à long terme. Le marché la considère comme un fournisseur d’infrastructures AI, ce qui a fait grimper son multiple de valorisation.
En outre, avec le soutien des politiques et des fonds, Micron, en tant que seule entreprise américaine de stockage avancé, bénéficie du « Chips Act » et de la tendance à la relocalisation de la chaîne d’approvisionnement, ce qui lui confère une prime de liquidité.
En comparaison, SK Hynix affiche un ratio P/E de seulement 12,17, malgré sa part de marché dominante en HBM et ses liens avec Nvidia. Cependant, sous l’influence de la gouvernance chaebang sud-coréenne, ses dividendes et rachats d’actions sont faibles ; de plus, près de 40 % de sa capacité DRAM est située en Chine, à Wuxi, et soumise à des restrictions à l’exportation de matériel étranger, ce qui limite ses possibilités d’upgrade vers des processus avancés, risquant de dévaluer ses actifs et de réduire sa capacité. Son évaluation reste donc sous pression.
Samsung Electronics affiche un ratio P/E de 34,18, non pas parce que ses actions sont surévaluées, mais parce que son bénéfice net est en baisse. La société opère dans plusieurs secteurs : stockage, fonderie, smartphones, écrans, etc. La division fonderie, qui investit massivement dans les processus avancés, subit une faible rentabilité, ce qui pèse sur le résultat global. La stabilité de son cours est soutenue par des fonds locaux, ce qui maintient le ratio élevé.
Les investisseurs voient clairement la logique centrale de Micron : l’augmentation de la part de revenus de la HBM augmente la marge brute ; les contrats à long terme assurent la stabilité des revenus ; la capacité de production orientée vers la HBM réduit l’offre de DRAM standard, soutenant la hausse des prix ; la production en 1-gamma permet d’entrer dans une phase de rentabilité des investissements, avec une amélioration continue des flux de trésorerie. Cependant, il faut garder à l’esprit que le cycle du secteur mémoire n’a pas disparu, mais est simplement amorti par de longues commandes de HBM. Si l’investissement dans l’infrastructure AI ralentit ou si Samsung parvient à surpasser la technologie HBM4, la dynamique de l’offre et de la demande pourrait se réinitialiser.
Les critères clés pour l’évaluation de la HBM et la prochaine génération de technologie d’interconnexion CXL
Tous les fabricants mettent en avant leurs avantages en matière de HBM, mais la qualité de la HBM se juge principalement selon trois paramètres clés :
Premier : la vitesse de broche, qui détermine la bande passante de transfert. La HBM repose sur des micro-bumps en milliers de points pour l’interconnexion avec le GPU, la vitesse de broche représentant le débit par canal en Gbps. La norme industrielle fixe une largeur de bus de 1024 broches, la bande passante totale suivant une formule fixe. Micron HBM3E revendique 9,2 Gbps, avec une bande passante par pile d’environ 1,2 To/s, supérieure à la norme de 8,0 à 8,5 Gbps des concurrents. Cependant, une augmentation de la vitesse entraîne une consommation accrue et un risque accru de distorsion du signal, la tension fluctuant fréquemment, générant de la chaleur, et une vitesse trop élevée pouvant provoquer des erreurs de signal, affectant la stabilité du transfert.
Deuxième : l’efficacité énergétique, mesurée en pJ/bit, plus la valeur est basse, mieux c’est. La HBM fonctionne en encapsulation avec le GPU, une consommation excessive aggravant la dissipation thermique, obligeant le GPU à réduire sa fréquence. Micron, grâce à sa technologie 1-beta à faible tension, affiche une efficacité énergétique environ 30 % supérieure à celle de ses concurrents, réduisant considérablement la facture électrique et les coûts de refroidissement des data centers.
Troisième : la résistance thermique et la technologie d’emballage, qui constituent la véritable barrière concurrentielle. La température de fonctionnement dépend à la fois de la consommation et de la résistance thermique. La structure multicouche de la HBM rend la conduction thermique difficile, la matière de remplissage entre les couches influant directement sur la résistance thermique. Deux principales techniques d’emballage existent : TC-NCF et MR-MUF. Micron et Samsung utilisent la première, mais celle-ci peut laisser des bulles d’air, augmentant la résistance thermique. SK Hynix privilégie la seconde, qui remplit les interstices avec un liquide, éliminant les bulles et réduisant la résistance thermique.
Une résistance thermique élevée peut entraîner une augmentation de la température, accélérant la fuite de courant dans les condensateurs de la DRAM, ce qui oblige le contrôleur mémoire à rafraîchir plus fréquemment, réduisant la bande passante effective. De plus, la technologie d’emballage limite le nombre de couches empilables : plus il y a de couches, plus la contrainte mécanique et la dilatation thermique compliquent la fabrication, augmentant le taux de défauts et la difficulté de contrôle qualité.
Pour analyser la technologie HBM d’un fabricant, il suffit de se concentrer sur trois points : la tension de test pour la vitesse nominale, le nombre de couches empilées et la capacité par puce, ainsi que le client final principal. La validation par le client est la dernière étape pour confirmer la niveau technologique.
CXL : le prochain champ de bataille pour la mémoire en cluster AI
Les fabricants de HBM mettent en avant leurs avantages, mais la qualité de la HBM se juge principalement selon trois paramètres clés :
Premier : la vitesse de broche, qui détermine la bande passante. La HBM utilise des micro-bumps en milliers de points pour l’interconnexion avec le GPU, la vitesse de broche représentant le débit par canal en Gbps. La norme industrielle fixe une largeur de bus de 1024 broches, la bande passante totale suivant une formule fixe. Micron HBM3E revendique 9,2 Gbps, avec une bande passante par pile d’environ 1,2 To/s, supérieure à la norme de 8,0 à 8,5 Gbps des concurrents. Cependant, une augmentation de la vitesse entraîne une consommation accrue et un risque accru de distorsion du signal, la tension fluctuant fréquemment, générant de la chaleur, et une vitesse trop élevée pouvant provoquer des erreurs de signal, affectant la stabilité du transfert.
Deuxième : l’efficacité énergétique, mesurée en pJ/bit, plus la valeur est basse, mieux c’est. La HBM fonctionne en encapsulation avec le GPU, une consommation excessive aggravant la dissipation thermique, obligeant le GPU à réduire sa fréquence. Micron, grâce à sa technologie 1-beta à faible tension, affiche une efficacité énergétique environ 30 % supérieure à celle de ses concurrents, réduisant considérablement la facture électrique et les coûts de refroidissement des data centers.
Troisième : la résistance thermique et la technologie d’emballage, qui constituent la véritable barrière concurrentielle. La température de fonctionnement dépend à la fois de la consommation et de la résistance thermique. La structure multicouche de la HBM rend la conduction thermique difficile, la matière de remplissage entre les couches influant directement sur la résistance thermique. Deux principales techniques d’emballage existent : TC-NCF et MR-MUF. Micron et Samsung utilisent la première, mais celle-ci peut laisser des bulles d’air, augmentant la résistance thermique. SK Hynix privilégie la seconde, qui remplit les interstices avec un liquide, éliminant les bulles et réduisant la résistance thermique.
Une résistance thermique élevée peut entraîner une augmentation de la température, accélérant la fuite de courant dans les condensateurs de la DRAM, ce qui oblige le contrôleur mémoire à rafraîchir plus fréquemment, réduisant la bande passante effective. De plus, la technologie d’emballage limite le nombre de couches empilables : plus il y a de couches, plus la contrainte mécanique et la dilatation thermique compliquent la fabrication, augmentant le taux de défauts et la difficulté de contrôle qualité.
Pour analyser la technologie HBM d’un fabricant, il suffit de se concentrer sur trois points : la tension de test pour la vitesse nominale, le nombre de couches empilées et la capacité par puce, ainsi que le client final principal. La validation par le client est la dernière étape pour confirmer la niveau technologique.
La mémoire d’extension pour IA : le prochain enjeu avec CXL
La HBM résout le problème de bande passante interne d’un GPU unique, mais lorsque les clusters AI s’étendent à plusieurs milliers de GPU, l’allocation inefficace des ressources mémoire et l’incohérence des caches entre appareils deviennent de nouveaux défis, donnant naissance à la technologie CXL.
Dans les centres de données traditionnels, la mémoire est physiquement liée à un seul serveur, incapable d’être partagée entre appareils. Cela entraîne des problèmes de saturation du cache KV sur certains nœuds et de mémoire inutilisée sur d’autres, avec un taux d’échec de la mémoire pouvant atteindre 20 à 30 %, provoquant un gaspillage important de capital. Par ailleurs, la synchronisation des données entre CPU et GPU est inefficace, avec des délais élevés et une faible tolérance aux erreurs, nécessitant souvent une adaptation logicielle complexe.
Ce problème provient de la limitation du protocole PCIe, qui ne supporte que le transfert de gros blocs de données sans mécanisme de cohérence de cache. La norme CXL, basée sur la couche physique PCIe, optimise la sémantique mémoire et la cohérence du cache, en utilisant du matériel pour maintenir automatiquement l’état du cache, synchronisant les données en quelques nanosecondes sans intervention logicielle. Elle utilise un format de transmission fixe (FLIT), simplifiant le traitement des données, et réduit la latence d’accès à la mémoire distante à environ 170-250 nanosecondes.
De plus, CXL permet de construire des pools de mémoire partagée via des commutateurs, déliant la mémoire physique d’un seul serveur, et permettant une allocation dynamique en microsecondes des ressources mémoire inutilisées, résolvant ainsi le problème de mémoire bloquée.
Micron a lancé un module d’extension mémoire CXL Type 3, basé sur sa propre technologie DDR5, combiné à la HBM pour une hiérarchie de mémoire : la HBM pour des scénarios à bande passante ultra élevée et faible latence, et CXL pour une extension de mémoire à grande capacité entre nœuds. Dans la pratique, les données chaudes restent en HBM locale, tandis que les données froides de long contexte sont déchargées dans le pool CXL, avec une prélecture pour masquer la latence, facilitant la mise en œuvre de modèles à contexte ultra-long de plusieurs millions de tokens.
Sur le marché, la compétition pour la HBM devient féroce, tandis que le développement de CXL en tant que mémoire d’extension est encore à ses débuts, avec un paysage encore incertain. Micron, en tant que fabricant purement spécialisé dans la mémoire, sans historique de conception de puces logiques, utilise une technologie DDR5 standard pour ses modules CXL, évitant des processus complexes d’empilement, avec une maîtrise maîtrisée des défauts et de la capacité de production, ce qui lui donne un avantage potentiel pour prendre une avance dans ce domaine.
Les enjeux fondamentaux et les limites technologiques
Le coût d’un wafer de DRAM avancée peut atteindre 150 à 200 millions de dollars, avec une seule machine EUV coûtant plus de 200 millions de dollars. Ajoutez à cela les coûts d’alimentation et de refroidissement, et la dépréciation sur 5 ans, la dépense quotidienne est énorme. Pour amortir ces coûts, l’utilisation doit dépasser 95 %, ce qui rend difficile la réduction de la production en période de baisse de la demande, conduisant à des guerres de prix, un phénomène inhérent à la cyclicité du secteur.
Le coût élevé de la HBM est également dû à des contraintes physiques : le stacking vertical de plusieurs couches de DRAM, où une seule défectuosité entraîne la perte de tout le module, la qualité de fabrication diminuant exponentiellement avec le nombre de couches. Même avec un taux de rendement de 95 % pour chaque wafer et 99 % pour l’assemblage, le rendement global d’un HBM à 8 couches ne dépasse pas 61 %, et à 12 couches, il est inférieur à 50 %. La montée en gamme des procédés de Micron et de SK Hynix vise à améliorer le rendement global et à réduire le coût unitaire, mais ces améliorations ne peuvent pas être accélérées, ce qui limite la baisse rapide des prix du HBM à court terme.
La technologie PIM (Processing In Memory), qui propose d’intégrer une capacité de calcul légère dans la mémoire, n’a pas encore été commercialisée à grande échelle, principalement en raison de contradictions dans les processus physiques : les transistors DRAM doivent avoir une faible fuite et une haute tension de seuil pour stocker la charge, ce qui ralentit la commutation ; les puces logiques CPU et GPU recherchent une tension de seuil basse et une fréquence élevée, mais cela augmente la fuite de courant. Intégrer des unités de calcul dans la DRAM entraînerait une perte de performance par rapport au GPU, tout en accélérant la fuite de capacité et en compromettant la fiabilité des données.
La voie intermédiaire consiste à intégrer une capacité de calcul légère dans la couche inférieure du HBM, en utilisant des procédés logiques avancés de TSMC pour contourner les contraintes de la fabrication DRAM, mais cela reste éloigné d’une véritable architecture mémoire-ordinateur intégrée.
À long terme, la stratégie de Micron est claire : s’appuyer sur le procédé 1-gamma pour réduire le coût par bit, en utilisant la forte marge de la HBM pour fixer les prix, et en stabilisant le cycle industriel par des contrats à long terme. Mais le secteur reste confronté à des limites structurelles : la miniaturisation du planar de la DRAM approche ses limites physiques, le rendement de la pile 3D diminue avec le nombre de couches, et la fusion mémoire-calcul n’a pas encore de voie commerciale à court terme. La compétition future ne reposera plus uniquement sur la maîtrise des nœuds technologiques, mais sur la maîtrise du rendement, des procédés d’emballage et de l’intégration système, des barrières naturelles construites par des décennies d’innovation.
L’analyse du cycle montre que l’itération du secteur des puces est cyclique : en cas de sous-capacité, on augmente la taille des puces, ce qui limite le rendement ; en cherchant à connecter ces puces, on rencontre des problèmes de latence ; le stacking résout certains problèmes d’interconnexion, mais crée des défis thermiques, qui à leur tour affectent le rendement. En fin de compte, la compétition ultime du secteur des puces reviendra à la science des matériaux, avec des technologies de rupture comme la photonique, les matériaux bidimensionnels ou les architectures de calcul révolutionnaires, qui pourraient briser les limites physiques actuelles.