HBM vs GDDR：¿Cómo superar el cuello de botella de "memoria" en el entrenamiento y la inferencia de IA con memorias de alta ancho de banda?

Question

En la competencia de IA con parámetros que superan los billones de dólares en modelos de gran escala, la potencia de cálculo de GPU es sin duda el foco, pero un componente más oculto que determina el límite superior se está convirtiendo en la posición estratégica de la industria: la memoria de alta ancho de banda (High Bandwidth Memory, HBM). Si se compara la GPU con un motor de alto rendimiento con miles de cilindros, entonces el HBM es el sistema de combustible que suministra datos continuamente. Si el suministro de combustible no puede mantenerse, incluso el motor más potente solo podrá funcionar en vacío.

La industria en general ha tomado conciencia de que el cuello de botella en la potencia de cálculo de IA ya no se limita a la unidad de cálculo en sí, sino que está más relacionado con la eficiencia en la transferencia de datos. Los datos muestran que, en arquitecturas de cálculo tradicionales, el consumo de energía en la transferencia de datos suele representar entre el 60% y el 80% del consumo total del sistema. En escenarios de inferencia, la tasa de inactividad de la GPU puede llegar incluso al 99%. La restricción clave detrás de esto es el ancho de banda de la memoria.

Gracias a la tecnología de apilamiento 3D y a los agujeros de silicio (TSV), el HBM logra un ancho de banda y eficiencia energética mucho mayores que la memoria tradicional en la misma superficie, convirtiéndose en un estándar para aceleradores de IA de gigantes como NVIDIA, AMD y Google.

Principios técnicos: ¿Cómo reestructura el HBM el canal de datos entre GPU y memoria?

De “coche de carreras en plano” a “ascensor vertical”

El HBM no es un medio de almacenamiento completamente nuevo, sino un conjunto de especificaciones para la interfaz y el encapsulado que definen “cómo conectar DRAM con un ancho de banda extremadamente alto”. Su camino tecnológico principal puede desglosarse en tres niveles:

Apilamiento 3D — Apilar chips de DRAM en múltiples capas verticalmente (actualmente entre 8 y 12 capas, con HBM4 avanzando a 16 capas), lo que multiplica por varias veces la densidad de almacenamiento y el número de canales paralelos en la misma área física.

TSV (Agujeros de silicio) — Grabar microagujeros de solo 5-10 micrómetros de diámetro en cada capa de chip DRAM, rellenarlos con material conductor para formar canales verticales que conectan las capas, logrando una interconexión a nivel de miles de conexiones entre capas. En contraste con las trazas tradicionales en PCB, que pueden extenderse centímetros o metros, los TSV acortan la distancia de transmisión de señal a micrómetros, reduciendo significativamente la atenuación y la latencia.

Interposer de silicio — El apilamiento HBM se conecta mediante microbump a una capa intermedia de silicio, que a su vez se conecta a los chips GPU/CPU en una distancia muy corta, formando un módulo encapsulado unificado. Toda esta estructura se realiza mediante procesos avanzados de empaquetado 2.5D como CoWoS, logrando una integración de alta densidad.

El avance clave de esta arquitectura radica en el ancho del bus. Un apilamiento HBM típico tiene un ancho de bus de 1024 bits, y el HBM3E puede escalar hasta 2048 bits. Por ejemplo, la última producción en masa de SK Hynix para HBM3E tiene una capacidad de 24 GB por chip, con un ancho de banda que supera 1 TB/s. En comparación, las soluciones tradicionales GDDR tienen un ancho de 32 bits (por chip) o 384 bits (varios chips combinados), con capacidades de transferencia de datos muy inferiores.

El diseño subyacente del HBM es “ancho y lento”: mediante una gran cantidad de canales paralelos, se obtiene un ancho de banda total; cada canal opera a frecuencias relativamente bajas, lo que mejora la eficiencia energética en comparación con soluciones de alta frecuencia. Por otro lado, GDDR sigue la lógica de “estrecho y rápido”: confiando en frecuencias de operación más altas y menos canales para extraer ancho de banda. Estas dos filosofías de diseño se adaptan a diferentes escenarios: HBM busca un rendimiento de transmisión extremo, mientras que GDDR busca un equilibrio entre rendimiento y costo.

HBM vs GDDR6: un duelo entre “ancho y lento” y “estrecho y rápido”

HBM y GDDR6 pertenecen a la familia de memorias DRAM, y ambas tienen como misión principal proporcionar canales de acceso a datos para GPU, pero difieren en sus objetivos de diseño, características de rendimiento y estructura de costos.

Ancho de banda: HBM3E puede alcanzar hasta 1.2 TB/s por apilamiento, y la próxima generación HBM4 se espera que supere los 2.0 TB/s. GDDR6X tiene un límite máximo de aproximadamente 1 TB/s por tarjeta, acercándose a su límite físico en productos de gama alta. Sin embargo, en términos de eficiencia energética por unidad de ancho de banda, HBM es claramente superior, lo que se traduce en ventajas cuantificables en costos operativos en despliegues masivos en centros de datos de IA.

Consumo y latencia: Debido a la corta trayectoria vertical de los TSV, el consumo de energía del HBM es aproximadamente un 30% menor que el del GDDR5. En cuanto a la latencia, GDDR depende de trazas en PCB y comunicación con la GPU, con latencias en el orden de microsegundos; el HBM, al estar encapsulado cerca del chip GPU, reduce la latencia a nanosegundos. Aunque en escenarios de rendimiento extremo, la latencia de acceso aleatorio del HBM puede ser ligeramente mayor que la de GDDR, en patrones de acceso masivo y paralelo (como en entrenamiento y inferencia de IA), el rendimiento en ancho de banda es la limitación principal.

Costos: Este es el punto más desfavorable para el HBM. Según datos de la industria, el costo por GB de HBM supera los 25 dólares, mientras que GDDR6 ronda entre 5 y 8 dólares. La proporción del costo total de un GPU de gama alta que representa el HBM puede llegar hasta el 60-80%. La relación costo-rendimiento en términos de ancho de banda por unidad de costo favorece claramente a GDDR6, especialmente en escenarios donde no se requiere el máximo ancho de banda absoluto.

En resumen, la elección entre HBM y GDDR se reduce a un equilibrio entre rendimiento y costo. HBM es adecuado para escenarios donde se necesita superar un umbral de ancho de banda para que el sistema funcione eficazmente —por ejemplo, inferencia de modelos con cientos de miles de millones de parámetros—; mientras que GDDR6 es preferido en escenarios donde se busca un rendimiento aceptable con menor costo, como en despliegues de modelos medianos o pequeños (7-13 mil millones de parámetros).

No son tecnologías sustitutas, sino rutas paralelas que atienden diferentes niveles de demanda. Sin embargo, en escenarios de entrenamiento de IA y de inferencia a gran escala, la ventaja del HBM está desplazando progresivamente a GDDR de su posición en el núcleo de la competencia.

La paradoja de la “pared de memoria”: ¿Por qué a mayor tamaño del modelo IA, la demanda de HBM crece exponencialmente?

Para entender el crecimiento explosivo en la demanda de HBM, hay que volver a un cuello de botella central en el paradigma de cálculo de IA: la “pared de memoria” (Memory Wall).

La brecha entre el crecimiento del poder de cálculo y el ancho de banda

En los últimos 30 años, la potencia de cálculo de los procesadores ha seguido la ley de Moore, duplicándose aproximadamente cada 18-24 meses; sin embargo, la velocidad de aumento del ancho de banda de memoria ha sido mucho más lenta. Estudios sobre IA y Memory Wall muestran que, cada dos años, la potencia de cálculo de IA crece aproximadamente 3 veces, mientras que el ancho de banda de memoria solo aumenta en un factor de 1.6, y la capacidad de interconexión aún menos. Esto significa que cada vez que la potencia de cálculo se incrementa, la capacidad de transferencia de datos se deprecia en relación.

Este conflicto es especialmente evidente en la inferencia. Durante el entrenamiento, predominan las multiplicaciones de matrices (GEMM), con alta densidad computacional y una intensidad aritmética que puede superar las 100 FLOPs por byte; en la inferencia, predominan las multiplicaciones matriz-vectores (GEMV), con una intensidad aritmética a menudo por debajo de 2 FLOPs por byte. Cuanto menor sea la intensidad aritmética, más dependiente será el rendimiento del ancho de banda de memoria que de la potencia de cálculo —de ahí el efecto “pared de memoria”.

La carga de transferencia en inferencia de modelos grandes

El proceso de inferencia de modelos grandes puede resumirse así: cada vez que se genera un token, se deben cargar todos los parámetros del modelo desde la memoria a la unidad de cálculo. Por ejemplo, el modelo Llama 3 de 70B parámetros ocupa unos 140 GB en FP16. Para generar un token, estos 140 GB deben transferirse una vez. Para mantener una generación de 30 tokens por segundo, el ancho de banda entre memoria y cálculo debe soportar aproximadamente 4.2 TB/s.

Esta demanda ya se acerca o supera los límites de hardware actuales. La HBM del NVIDIA H100 SXM5 tiene un ancho de banda de 3.35 TB/s. Incluso la tarjeta más avanzada en IA, en condiciones ideales, está en el límite de lo que puede soportar. A medida que los modelos crecen a cientos de miles de millones o billones de parámetros, la demanda de ancho de banda crece de forma lineal o incluso superlineal.

Capacidad y ancho de banda: doble restricción

La capacidad de memoria también es un factor clave. Si el tamaño total del modelo excede la capacidad de HBM en un solo GPU, hay que dividir el modelo en varias GPUs mediante paralelismo tensorial, lo que introduce un nuevo cuello de botella: la comunicación entre GPUs. La transferencia frecuente de resultados intermedios puede reducir aún más la eficiencia global.

Por lo tanto, el valor del HBM radica en dos niveles: el ancho de banda determina la velocidad y el retardo mínimo en la generación de tokens; la capacidad determina si el modelo cabe en una sola GPU, cuántas se necesitan y cuánto cuesta la comunicación entre ellas.

El camino actual en la industria es que el HBM pase de ser una opción “premium” a un componente “estándar” en la potencia de cálculo de IA. Según TrendForce, la demanda de HBM en 2025 crecerá más del 130% respecto al año anterior, y en 2026 continuará creciendo más del 70% en base a cifras altas. Desde un papel secundario en el procesamiento gráfico, el HBM se ha convertido en un componente central e imprescindible en la cadena de potencia de IA.

Impacto en toda la cadena industrial: desde la selección tecnológica hasta el desbalance en la oferta y demanda de cientos de miles de millones

Crecimiento del mercado

El ritmo de expansión del mercado de HBM ha superado las predicciones iniciales de muchas instituciones. Según datos de SEMI China, para 2026, el mercado de HBM crecerá un 58% hasta 54.6 mil millones de dólares, representando casi el 40% del mercado total de DRAM. Micron estima que el mercado potencial (TAM) de HBM tendrá una tasa de crecimiento anual compuesta de aproximadamente 40%, pasando de unos 35 mil millones en 2025 a 100 mil millones en 2028, superando ya la escala del mercado total de DRAM en 2024.

Restricciones en la oferta

Pero el crecimiento explosivo de la demanda contrasta con la capacidad de producción rígida. Aunque Samsung, SK Hynix y Micron han destinado el 70% de su capacidad adicional o ajustable a la producción de HBM, la brecha de capacidad total aún alcanza entre el 50% y el 60%.

La principal dificultad radica en las altas barreras de fabricación de HBM. La producción requiere procesos avanzados de fabricación de DRAM (que ya han avanzado a nodos de 1β nm), además de tecnologías de TSV, soldadura microbump, encapsulado a nivel de oblea y otros procesos de empaquetado avanzado. Aunque TSMC planea ampliar su capacidad de empaquetado CoWoS a más de 125,000 obleas mensuales para 2026, aún no puede satisfacer completamente las órdenes de NVIDIA, AMD y Broadcom.

Riesgos en la cadena de suministro y transmisión de precios

La escasez de capacidad se refleja en los precios. El precio del HBM3E en 2025 aumentó entre un 5% y un 10%. Además, al redirigir gran parte de su capacidad hacia HBM, los suministros de memoria DDR para consumo se reducen, y se espera que sus precios sigan subiendo hasta finales de 2026. La escasez de HBM está afectando toda la cadena de memoria, desplazando capacidad hacia este segmento.

En junio de 2026, Jensen Huang confirmó que SK Hynix, Samsung y Micron ya han aprobado y comenzado a suministrar en masa chips HBM4. Samsung inició en febrero de 2026 la producción en masa de HBM4. Sin embargo, incluso con la expansión simultánea de los tres gigantes, la brecha entre oferta y demanda en 2025-2026 sigue siendo del 50%. La balanza entre oferta y demanda en el corto plazo sigue siendo difícil de equilibrar, debido a la velocidad de expansión de la capacidad, los cuellos de botella en el empaquetado y la rápida demanda de potencia de cálculo en IA.

Conclusión

Desde la innovación en los principios tecnológicos básicos, pasando por la dependencia rígida en escenarios de IA, hasta el desbalance en la cadena de suministro y demanda, el HBM ha evolucionado desde una rama de la tecnología de memoria hasta convertirse en el punto clave de competencia en infraestructura de IA.

La irreemplazabilidad del HBM en entrenamiento e inferencia de IA proviene de una lógica de cálculo muy básica: cuando el tamaño del modelo supera cierto umbral, el ancho de banda deja de ser una “opción de optimización” y pasa a ser un “factor habilitador”: por debajo del umbral, el sistema no puede funcionar eficazmente. Aunque GDDR6 tiene ventajas en costos, su arquitectura de canales estrechos y alta frecuencia, en términos de límite de ancho de banda y eficiencia energética, no puede igualar la densidad de cálculo de modelos con billones de parámetros. Esta diferencia estructural determina que, en la carrera por la potencia de cálculo de IA, el HBM y el GDDR no son simplemente competidores, sino soluciones jerárquicas para diferentes niveles de demanda.

De cara al futuro, la producción en masa de HBM4 (con un ancho de banda por apilamiento que supera los 2 TB/s), la maduración de la tecnología de apilamiento de 16 capas y la introducción de nuevas técnicas de empaquetado híbrido y soldadura, seguirán elevando los límites de rendimiento del HBM. Sin embargo, también se están explorando caminos alternativos, como la optimización algorítmica para reducir la dependencia del HBM, arquitecturas de memoria SRAM y sistemas de cómputo y memoria integrados. La capacidad del HBM para mantener su liderazgo en innovación y resolver sus cuellos de botella en la oferta será uno de los factores más importantes en la industria de la potencia de cálculo de IA en los próximos años.

Ver original

HBM vs GDDR：¿Cómo superar el cuello de botella de "memoria" en el entrenamiento y la inferencia de IA con memorias de alta ancho de banda?

Principios técnicos: ¿Cómo reestructura el HBM el canal de datos entre GPU y memoria?

HBM vs GDDR6: un duelo entre “ancho y lento” y “estrecho y rápido”

La paradoja de la “pared de memoria”: ¿Por qué a mayor tamaño del modelo IA, la demanda de HBM crece exponencialmente?

Impacto en toda la cadena industrial: desde la selección tecnológica hasta el desbalance en la oferta y demanda de cientos de miles de millones

Conclusión

Temas de actualidad

GateIPOAccessSpaceX

AnthropicReleasesFable5Model

IsraelStrikesIranBTCPlunges

MyGateTradeStory

SpaceXIPOAttractsOver250BillionInOrders

Fijado