Desde la caída de Elpida hasta el auge de Micron: la reconstrucción de la lógica fundamental de los chips de almacenamiento

En 2012, el principal fabricante mundial de memoria DRAM, Elpida, declaró oficialmente su bancarrota.

Como una de las empresas emblemáticas de la industria de semiconductores en Japón, Elpida integró las tecnologías centrales de los tres gigantes NEC, Hitachi y Mitsubishi, incluso con la intervención del gobierno japonés para financiarla, aún fue difícil revertir la tendencia a la baja. Después de que la compañía cargara con una deuda de 430 mil millones de yenes y solicitara protección por bancarrota, fue finalmente adquirida por Micron Technology de EE. UU. por 200 mil millones de yenes, y tras la integración y asimilación, salió completamente del escenario de la industria.

Mirando hacia atrás en la historia del desarrollo del sector, Intel, Texas Instruments y Motorola también intentaron entrar en la carrera de DRAM, pero posteriormente abandonaron el mercado uno tras otro. La industria de memoria de semiconductores en Japón, que alcanzó su apogeo y colapsó en menos de veinte años. Luego, las empresas coreanas tomaron el relevo y surgieron con fuerza, Samsung y SK Hynix, apoyadas por subsidios gubernamentales y con una agresiva guerra de precios, barrieron el mercado global, comprimiendo el espacio de supervivencia de todos los competidores.

Y Micron se convirtió en la última superviviente, siendo actualmente la única empresa en EE. UU. con capacidad de producción en masa de chips de almacenamiento avanzados. Esta compañía, con sede en Boise, Idaho, ha permanecido en la sombra del halo de Nvidia y TSMC, sin involucrarse en el diseño de GPU ni en la fabricación de chips lógicos. Pero con la explosión de la demanda de poder de cómputo en IA, un cuello de botella físico que lleva décadas sin resolverse se ha vuelto cada vez más evidente: el tiempo de espera de las unidades de cálculo por la transferencia de datos, que ya supera el tiempo de cálculo en sí. Este problema no puede resolverse mediante optimización de software, solo mediante avances en hardware, y esa es precisamente la área en la que Micron ha estado invirtiendo durante cuarenta años.

El cuello de botella en el cálculo de IA: la pared de memoria, un problema común en la industria

Bajo la arquitectura de Von Neumann, las unidades de cálculo GPU y TPU y la memoria principal están físicamente independientes en el nivel de circuitos. Las unidades de cálculo incorporan SRAM de pequeña capacidad como caché en el chip, mientras que los pesos de modelos grandes y datos de entrada se almacenan principalmente en DRAM fuera del chip, y los datos deben transferirse entre regiones mediante señales eléctricas a través de un nivel intermediario.

Por ejemplo, un modelo de lenguaje grande con 700 mil millones de parámetros, en precisión FP16, requiere aproximadamente 140 GB de memoria física solo para los pesos del modelo. Actualmente, las tarjetas de IA de gama alta tienen capacidades de memoria de entre 80 GB y 192 GB, por lo que los modelos de gran tamaño solo pueden dividirse para funcionar en múltiples tarjetas en colaboración. En la última década, la potencia de cálculo de los chips ha aumentado exponencialmente, pero el ancho de banda de memoria, limitado por el número de pines físicos, la frecuencia de las señales y los límites de disipación térmica, ha crecido mucho más lentamente que la capacidad de cálculo. Cuando el rendimiento de cálculo supera la capacidad de suministro de memoria, las unidades de cálculo entran en estado de espera, perdiendo eficiencia.

La IA tiene dos escenarios principales: entrenamiento y inferencia, con diferencias lógicas significativas. En la fase de entrenamiento, se realiza procesamiento en paralelo a gran escala, con datos que se reutilizan en cachés de núcleos de cálculo, con alta intensidad aritmética, y el cuello de botella se centra en la velocidad de cálculo, no en la memoria, siendo un escenario típico de alta densidad computacional, donde la ventaja de Nvidia en potencia de cálculo se manifiesta plenamente.

En la inferencia, la lógica es completamente diferente. Los grandes modelos de lenguaje generan texto token por token mediante un mecanismo autoregresivo. Para evitar cálculos repetidos de las puntuaciones de atención histórica, el sistema necesita construir un mecanismo de caché KV en la memoria de la tarjeta. Por ejemplo, con una longitud de contexto de aproximadamente 4096 tokens, una sola solicitud de usuario ocupa unos 1.34 GB de memoria; tras excluir los pesos del modelo, solo quedan unos 20 GB disponibles para la caché KV en una tarjeta A100, lo que permite soportar como máximo 14 solicitudes concurrentes. La intensidad aritmética en inferencia es muy baja, y el rendimiento está completamente limitado por el ancho de banda de memoria, siendo una tarea intensiva en acceso a memoria, donde la velocidad de transferencia física de HBM determina directamente el límite de rendimiento del sistema.

Desde la perspectiva del consumo energético, leer cada bit de datos desde la memoria HBM fuera del chip consume aproximadamente 10-20 pJ/bit, mientras que una operación de punto flotante FP16 consume solo 0.1 pJ, por lo que el consumo de energía en transferencia de datos es 100 a 200 veces mayor que en cálculo. En escenarios de inferencia a gran escala, si no se optimizan los patrones de acceso a memoria, gran parte de la energía en los centros de datos se gastará en la transferencia de datos por el bus, en lugar de en operaciones lógicas reales. Esto también impulsa a Micron a seguir profundizando en la tecnología HBM, como su principal motor.

Fundamentos y posición en la cadena de suministro de IA de Micron

Micron es un fabricante integrado típico IDM, que desarrolla internamente todo el proceso desde diseño de chips, fabricación de obleas, empaquetado y prueba. Sus fábricas de obleas se centran en chips de memoria, sin involucrarse en CPU o GPU, concentrándose en el desarrollo y producción de memorias y memorias flash.

En cuanto a la estructura de ingresos, más del 70% proviene de DRAM, mientras que NAND flash representa entre el 20% y 30%, y NOR flash tiene una participación menor. La DRAM es la base de las memorias de uso general, NAND es el medio clave para unidades de estado sólido, y NOR se usa principalmente en electrónica automotriz y equipos industriales, con funciones de arranque y ejecución rápida de código, en nichos que aunque pequeños, son insustituibles.

En términos de distribución de negocio, Micron divide sus operaciones en cuatro áreas principales: redes de computación para centros de datos y servidores, terminales móviles para teléfonos inteligentes, unidades de estado sólido para almacenamiento empresarial, y sistemas embebidos para automoción e industrial.

En la cadena de suministro de IA, Nvidia diseña las GPU, TSMC realiza la fabricación de obleas, y Micron, aunque no participa en estos dos aspectos, es un proveedor clave de componentes para las tarjetas aceleradoras de IA. Solo con chips lógicos GPU no es suficiente para soportar modelos grandes; el cuello de botella en inferencia está en el ancho de banda de memoria, por lo que las GPU de Nvidia necesitan integrar estrechamente memorias HBM de alto ancho de banda. Micron, junto con SK Hynix y Samsung, son los principales proveedores de HBM, con productos integrados en paquetes CoWoS de TSMC, formando módulos completos de cálculo de IA. La GPU es el cerebro del poder de IA, y HBM es la vía de transmisión de datos de alta velocidad, ambos son imprescindibles.

En la lógica competitiva del sector, Nvidia construye su ventaja competitiva mediante arquitectura y ecosistema, mientras que Micron continúa innovando en procesos de fabricación y tecnologías de empaquetado para crear barreras de entrada. Cada generación de HBM con mayor ancho de banda depende de avances en TSV y en el número de capas apiladas, con una barrera tecnológica muy alta.

DRAM: la infraestructura fundamental detrás del poder de IA

En la arquitectura de computadoras tradicional, la DRAM como memoria principal se adapta perfectamente a la diferencia de velocidad entre discos duros de gran capacidad y baja velocidad, y CPU de alta velocidad con caché pequeña. Cuando se ejecuta un programa, los datos se cargan desde el disco duro a la DRAM, y la CPU realiza lecturas y escrituras con latencias en nanosegundos y ancho de banda ultra alto, con el núcleo del sistema y procesos en segundo plano residiendo en ella. La DRAM puede perder datos en caso de apagón, debido a la fuga natural de carga en sus condensadores internos, por lo que requiere refresco continuo para mantener los datos. La unidad básica consiste en un transistor y un condensador.

Con la llegada de la era de IA, la forma y las demandas de uso de la DRAM se reconfiguran completamente. El núcleo de cálculo pasa de CPU a GPU, y la DRAM ya no se limita a las memorias DDR en la placa base, sino que adopta memorias de alta banda ancha HBM, apiladas verticalmente mediante tecnología TSV, integradas en un mismo chip con la GPU en una capa intermedia.

Actualmente, el valor central de la DRAM se enfoca en dos dimensiones: primero, en cargar los pesos de modelos grandes, por ejemplo, un modelo de 700 mil millones de parámetros en formato FP16 requiere 140 GB de almacenamiento, y debe cargarse completamente en HBM antes de la inferencia; segundo, en la caché KV dinámica, que almacena el contexto histórico para la generación de texto, donde a mayor longitud de contexto, mayor consumo de memoria, limitando la capacidad de carga concurrente en un servidor de alta gama. En entrenamiento, el consumo de memoria es aún mayor, ya que además de los parámetros del modelo, se almacenan múltiples resultados intermedios y datos adicionales de optimización, pudiendo requerir de 3 a 4 veces más memoria que en inferencia.

Debido a la pared de memoria, el ritmo de crecimiento del poder de cálculo de GPU supera con creces la velocidad de actualización del ancho de banda de memoria, y en la fase de inferencia, las GPU se quedan inactivas en muchas ocasiones. La actualización del ancho de banda de HBM es clave para determinar el rendimiento máximo de los servidores de IA, y esa es la lógica fundamental por la que Micron invierte en I+D en HBM.

La estructura de mercado de los tres grandes: Samsung, SK Hynix y Micron, y su competencia diferenciada


El mercado global de DRAM está dominado por tres gigantes: Samsung, SK Hynix y Micron, que en conjunto controlan aproximadamente el 95% del mercado, con ventajas competitivas distintas.

En cuanto a la evolución de procesos, Micron lidera la industria, logrando producción en masa de DRAM de alta densidad en nodos 1-alpha, 1-beta y 1-gamma, con mayor rendimiento por oblea y menor coste por bit, manteniendo ventajas en margen bruto. Samsung, con procesos por debajo de 14 nm, enfrenta cuellos de botella en rendimiento y su ritmo de innovación se ha ralentizado; SK Hynix mantiene un ritmo similar al de Micron.

En el segmento HBM, la situación es diferente: SK Hynix domina con más del 50% del mercado, siendo proveedor exclusivo para los primeros lanzamientos de GPU de Nvidia, con ventajas en empaquetado MR-MUF y en la gestión térmica y de rendimiento en múltiples capas. Micron, como entrante tardío, ha saltado directamente a HBM3E, aprovechando ventajas en eficiencia energética y usando empaquetado TC-NCF, con mayor dificultad de fabricación y menor cuota de mercado comparada con SK Hynix. Samsung, en fases HBM3 y HBM3E, no logró pasar las pruebas de Nvidia debido a problemas de calor y consumo, perdiendo la ventana de oportunidad en memoria para IA, y ahora apuesta por HBM4 para intentar superar a la competencia.

En términos de eficiencia energética, Micron destaca con un consumo un 20-30% menor en HBM a igual ancho de banda, lo que, en despliegues a gran escala en centros de datos, puede reducir significativamente los costes de electricidad y refrigeración. Además, su proceso LPDDR5X de 1-gamma alcanza tasas de 9.6 Gbps, con una reducción del 30% en consumo, ideal para modelos de IA en dispositivos móviles.

En capacidad, Samsung mantiene la mayor escala, dominando el mercado mediante guerras de precios; Micron, con menor capacidad, se enfoca en la diferenciación tecnológica y en la captura de valor mediante procesos y eficiencia energética superiores.

Fuera de DRAM y HBM, los productos NAND y NOR constituyen la segunda línea de crecimiento de Micron. En NAND, ocupa la cuarta o quinta posición global, con una cuota del 10-15%. En NOR, abandona el mercado de consumo de bajo nivel y se centra en aplicaciones automotrices e industriales de alta gama, liderando el estándar de interfaz de alta velocidad Octal xSPI, con certificación ASIL-D y suministro a largo plazo desde sus propias fábricas, atendiendo a clientes clave en automoción e industria, evitando guerras de precios y obteniendo primas por fiabilidad y rendimiento.

Valoración de Micron y comparación con sus pares

El precio actual de Micron ronda los 600 dólares, con un PER de 21.44, y una capitalización de aproximadamente 650 mil millones de dólares. Los bancos de inversión de Wall Street proyectan un precio objetivo a 12 meses entre 400 y 675 dólares, con un promedio cercano a 500 dólares, indicando que la valoración en general está subestimada.

Históricamente, los chips de memoria han sido un sector de ciclo fuerte, donde la expansión de capacidad impulsada por la demanda genera sobrecapacidad y caídas de precios, con valoraciones típicas de 8 a 10 veces el PER. Ahora, la valoración de Micron ha aumentado significativamente, principalmente por la reestructuración de ingresos con HBM: mientras que la memoria DDR tradicional está muy sujeta a la volatilidad del mercado, HBM, con producción bajo pedido y contratos a largo plazo con clientes como Nvidia, ha asegurado toda su capacidad para 2026, transformando los ingresos de ciclos a ingresos contractuales estables, y siendo reevaluada como proveedor de infraestructura de IA, elevando su múltiplo de valoración.

Además, con apoyo político y financiero, como la Ley de Chips en EE. UU. y la tendencia de localización de la cadena de suministro, Micron, como la única fabricante avanzada de almacenamiento en EE. UU., recibe inversión institucional que le otorga un diferencial de liquidez.

En comparación, SK Hynix tiene un PER de solo 12.17, aunque controla más de la mitad del mercado de HBM y tiene una cadena de suministro fuerte con Nvidia, su estructura accionarial y la presencia de casi el 40% de su capacidad en China, junto con restricciones en exportaciones de equipos avanzados, limita su capacidad de innovación y puede arrastrar riesgos de desplazamiento de capacidad y depreciación de activos, lo que mantiene su valoración a la baja.

Samsung Electronics tiene un PER de 34.18, pero esto no refleja una valoración premium, sino que se debe a la caída en el denominador de beneficios netos. Samsung opera en múltiples sectores: almacenamiento, fundición, smartphones y pantallas, y su negocio de fundición invierte mucho en procesos avanzados, pero con baja rentabilidad, lo que arrastra pérdidas y reduce el beneficio neto del grupo. La estabilidad de su cotización se mantiene gracias al apoyo del capital local, elevando su PER.

Las instituciones ven con optimismo a Micron por varias razones clave: aumento de ingresos por HBM que impulsa márgenes; contratos a largo plazo que aseguran ingresos; desplazamiento de capacidad hacia HBM que soporta subidas de precios en toda la línea; y la entrada en fase de retorno de inversión tras la producción en masa de procesos 1-gamma, con flujo de caja libre en mejora continua. Sin embargo, hay que tener en cuenta que el ciclo del sector de almacenamiento no ha desaparecido por completo, solo se ha suavizado con pedidos a largo plazo de HBM. Si la inversión en infraestructura de IA se desacelera o si Samsung logra superar tecnológicamente a HBM4, la estructura de oferta y demanda podría volver a cambiar.

Criterios clave para evaluar HBM y la próxima generación de tecnología de interconexión CXL

Cada fabricante promociona las ventajas de sus productos HBM, pero la calidad de HBM se evalúa principalmente por tres parámetros clave:

Primero, la velocidad de pines, que determina el ancho de banda de transferencia de datos. HBM se conecta a la GPU mediante microbump de mil niveles, y la velocidad de pines representa la cantidad de datos transmitidos por segundo por canal. La especificación estándar de bus tiene 1024 pines, y el ancho de banda total sigue una fórmula fija. Micron HBM3E tiene una tasa nominal de 9.2 Gbps, con un ancho de banda por pila de aproximadamente 1.2 TB/s, superior a los 8.0-8.5 Gbps de los competidores. Sin embargo, aumentar la velocidad conlleva riesgos de consumo y distorsión de señal, ya que la inversión de voltaje genera calor y puede causar errores en la señal, afectando la estabilidad de la transmisión.

Segundo, la eficiencia energética, medida en pJ/bit, cuanto menor, mejor. HBM se integra en un paquete con GPU, y un consumo excesivo aumenta la carga térmica, forzando a la GPU a reducir frecuencia y rendimiento. Micron, con su proceso 1-beta y diseño de bajo voltaje, logra una eficiencia aproximadamente un 30% superior a la de sus competidores, reduciendo significativamente los costes energéticos y de refrigeración en centros de datos.

Tercero, la resistencia térmica y la tecnología de empaquetado, que constituyen la principal ventaja competitiva de SK Hynix. La temperatura de operación depende del consumo y la resistencia térmica, y la estructura apilada de HBM dificulta la disipación de calor. La elección del proceso de empaquetado, como TC-NCF o MR-MUF, afecta la conductividad térmica y la presencia de burbujas de aire. Micron y Samsung usan TC-NCF, que puede dejar residuos de aire y tener mayor resistencia térmica; SK Hynix usa MR-MUF, que llena los espacios con material líquido sin burbujas, logrando menor resistencia térmica.

Una resistencia térmica elevada puede causar un ciclo en cadena: aumento de temperatura ambiente, mayor fuga en condensadores, mayor frecuencia de refresco, menor ancho de banda efectivo, y mayor dificultad para apilar capas, afectando la fiabilidad y el rendimiento. La evaluación de la tecnología HBM requiere analizar estos tres aspectos: velocidad nominal, número de capas y capacidad por chip, y los clientes principales de suministro, siendo la aceptación en pruebas reales la última validación de la calidad.

CXL: el próximo campo de batalla para la memoria en clústeres de IA

La tecnología HBM resuelve el cuello de botella de ancho de banda interno en una GPU, pero cuando los clústeres de IA crecen a miles de GPU, la asignación ineficiente de recursos y la incoherencia en cachés entre dispositivos se vuelven problemas nuevos, y surge CXL.

En los centros de datos tradicionales, la memoria está vinculada físicamente a un solo servidor, sin posibilidad de compartir recursos entre dispositivos. Esto provoca que algunos nodos tengan caché KV saturada y otros tengan memoria ociosa, con tasas de ineficiencia del 20-30%, generando un desperdicio de capital. Además, la sincronización de datos entre CPU y GPU no es coherente, y los métodos tradicionales de sincronización por software introducen latencias altas y pérdida de rendimiento, además de requerir programación manual y reducir la tolerancia a fallos.

El problema radica en la limitación del protocolo PCIe, que solo soporta transferencia de bloques grandes de datos sin mecanismos de coherencia de caché. CXL, basado en la capa física de PCIe, redefine la lógica para optimizar la semántica de memoria y la coherencia de caché, usando hardware para mantener automáticamente el estado de la caché, logrando sincronización en nanosegundos sin intervención del sistema o del código. Utiliza un formato de transmisión fijo (FLIT), simplificando el análisis de datos, y reduce la latencia de acceso remoto a memoria a entre 170 y 250 nanosegundos.

Además, CXL permite construir switches para crear pools de memoria compartida, eliminando la vinculación física a un solo servidor, y permitiendo la asignación dinámica en microsegundos de recursos ociosos, resolviendo completamente el problema de memoria ociosa.

Micron ha lanzado módulos de expansión de memoria CXL Type 3, basados en su proceso DDR5 propio, en una configuración complementaria a HBM: HBM enfocado en altas velocidades y baja latencia en tarjetas individuales; CXL orientado a expansión de memoria a nivel de clúster, soportando pools de recursos en terabytes. En aplicaciones reales, los datos activos permanecen en HBM local, mientras que los datos fríos de contexto largo se descargan en pools CXL, usando prefetching para cubrir la latencia de transmisión, facilitando la implementación de modelos con contextos de millones de tokens.

En el escenario competitivo, el mercado de HBM se vuelve cada vez más intenso, y CXL aún está en fase inicial de desarrollo, con un panorama aún por definir. Micron, como fabricante exclusivo de almacenamiento, sin cargas históricas, y con módulos CXL que usan procesos DDR5 estándar, sin necesidad de empaquetados complejos, puede mantener un control de calidad y capacidad de producción, y tiene potencial para liderar esta nueva área.

Economía fundamental y cuellos de botella en tecnologías de vanguardia

La fabricación avanzada de obleas de DRAM cuesta entre 150 y 200 mil millones de dólares, y un solo equipo de litografía EUV cuesta más de 200 millones de dólares. Sumando los sistemas de alimentación y refrigeración, el coste de depreciación en cinco años es enorme, y la utilización de la maquinaria debe mantenerse por encima del 95% para amortizar los costes. Cuando la demanda disminuye, los fabricantes no pueden reducir la producción fácilmente, solo pueden soportar la presión y entrar en guerras de precios, lo que refleja la naturaleza cíclica de la industria de almacenamiento.

El alto coste de HBM también se debe a restricciones físicas: apilar verticalmente múltiples capas de chips DRAM desnudos, donde una sola falla en alguna capa implica el descarte del módulo completo, y la tasa de rendimiento disminuye exponencialmente con más capas. Aunque los chips individuales tengan un rendimiento del 95% y las uniones entre capas un 99%, un HBM3E de 8 capas tiene una tasa de rendimiento total de solo alrededor del 61%, y un HBM4 de 12 capas puede tener menos del 50%. La mejora en el proceso y la reducción de defectos en SK Hynix y Micron buscan aumentar la tasa de rendimiento y reducir costes, pero estos procesos no se pueden acelerar rápidamente, por lo que los precios de HBM no bajarán mucho en el corto plazo.

La tecnología PIM (Processing In Memory) propuesta hace veinte años aún no ha llegado a comercialización a escala, debido a conflictos en los procesos físicos. Los transistores de DRAM necesitan baja fuga y voltajes altos para almacenar carga, lo que ralentiza su conmutación; por otro lado, los chips lógicos de CPU y GPU buscan voltajes bajos y altas frecuencias, con mayor fuga, creando un conflicto inherente. Integrar unidades de cálculo en la DRAM reduciría mucho el rendimiento en comparación con GPU, y aumentaría la fuga por calor, afectando la fiabilidad de los datos.

El camino intermedio actual es integrar una lógica ligera de IA en la capa inferior de HBM, usando procesos avanzados de TSMC para evitar las limitaciones del proceso de DRAM, pero aún lejos de una integración completa de memoria y cálculo.

A largo plazo, la estrategia de Micron es clara: aprovechar su proceso 1-gamma para reducir el coste por bit, y con los altos márgenes de HBM, mantener el control de precios mediante contratos a largo plazo, suavizando los ciclos del mercado. Sin embargo, el sector enfrenta cuellos de botella estructurales: la miniaturización de DRAM se acerca a límites físicos, y la pérdida de rendimiento en apilamiento aumenta con más capas, sin una vía comercial clara para la integración de memoria y cálculo en el corto plazo. La competencia futura no dependerá solo de la tecnología de nodo, sino de la calidad de la fabricación, empaquetado y la integración de sistemas, que constituyen las barreras profundas construidas por décadas de experiencia de los gigantes del almacenamiento.

El ciclo de la industria de chips siempre vuelve a los materiales: cuando falta potencia, se aumenta el tamaño del chip; al ampliar el tamaño, la tasa de rendimiento se reduce; al cambiar a arquitecturas interconectadas, surgen retrasos en transferencia de datos; apilar chips resuelve la conectividad, pero genera problemas de disipación térmica, que vuelven a afectar la fiabilidad. En última instancia, la competencia definitiva en la industria de chips volverá a centrarse en los materiales, y tecnologías disruptivas como la fotónica, semiconductores bidimensionales y arquitecturas de cálculo revolucionarias podrían ser la clave para superar las limitaciones físicas actuales.

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado