En los últimos años, con la rápida expansión a gran escala de servicios de IA como la inferencia de modelos grandes, las bases de datos en memoria y la computación de alto rendimiento, los centros de datos están alcanzando un punto crítico en los recursos de memoria. La DRAM, que antes era un componente estándar de los servidores, se ha convertido ahora en el recurso de infraestructura más caro y escaso. Los aumentos de precios y la rigidez de la oferta se han convertido en factores clave que limitan el ritmo de implementación de la potencia de cálculo de IA.

Según los datos de seguimiento de Counterpoint Research, el precio de la memoria DIMM de 64 GB ha aumentado 3.5 veces entre el tercer trimestre de 2025 y el primer trimestre de 2026, y la tendencia al alza aún no ha alcanzado su punto máximo; se espera que para el tercer trimestre de 2026, el aumento acumulado sea de 5 veces.

Los datos de TrendForce son aún más directos: en el primer trimestre de 2026, el precio de los contratos de DRAM aumentó entre un 93% y un 98% trimestralmente, lo que impulsó un crecimiento intertrimestral del 81% en los ingresos generales de la industria global de DRAM, alcanzando los 97 mil millones de dólares. En el segundo trimestre, la tendencia al alza no se detuvo, y se espera que los precios de los contratos aumenten otro 58% a 63%.

Las señales del mercado spot son aún más directas: el precio unitario spot actual de la DDR5 RDIMM de grado servidor oscila entre $27 y $37 por GB, y solo para construir un pool de memoria de 12 TB, el costo de adquisición de hardware de DRAM puro se acerca a los $500,000.

Crisis de DRAM, estallido total

La raíz de esta tormenta de aumentos de precios radica en la continua erosión de la capacidad de producción de DRAM por parte de HBM.

Según datos relevantes, con el auge de la demanda de memoria de alto ancho de banda para el entrenamiento e inferencia de IA, la proporción de HBM en la capacidad de obleas de DRAM ha aumentado del 2% en 2020 a un estimado del 25% en 2026. Samsung, SK Hynix y Micron, los tres fabricantes principales, están orientando su capacidad de producción de alta calidad hacia HBM de alto margen. La proporción de obleas de HBM en la producción total de obleas de DRAM entre 2025 y 2027 será del 18%, 22% y aproximadamente el 30%, respectivamente. Una oblea de HBM consume aproximadamente la capacidad de producción de tres obleas de DDR5. Los tres fabricantes principales están reduciendo activamente los pedidos de bajo margen para teléfonos móviles y PC, y orientando toda su capacidad de producción hacia la IA. Además, los hiperescaladores de la nube están bloqueando la producción futura de obleas con contratos a largo plazo de varios años, lo que comprime aún más la oferta de DRAM estándar para servidores.

La rigidez del lado de la oferta determina que la escasez difícilmente se alivie a corto plazo.

Los procesos avanzados de DRAM dependen en gran medida de las máquinas de litografía EUV, cuyo precio unitario alcanza los $200 millones. La inversión en una fábrica de obleas moderna asciende a decenas de miles de millones de dólares, y incluso en el mejor de los casos, el ciclo de construcción es de varios años. La velocidad de expansión de la capacidad de producción está muy por detrás del crecimiento de la demanda de IA.

Jefferies estima que, excluyendo la influencia de los fabricantes nacionales, el crecimiento de la oferta global de bits de almacenamiento en 2026 será solo del 7% al 8%. Podría haber un déficit de oferta combinado de DRAM y NAND de aproximadamente 150,000 a 200,000 obleas por mes. En su informe de ganancias del tercer trimestre fiscal de 2026, Micron Technology indicó que, aunque la oferta de la industria podría mejorar gradualmente en 2028, aún es difícil determinar cuándo la oferta de almacenamiento podrá seguir el ritmo de la demanda en continuo crecimiento.

Además, la presión ya se ha extendido de los centros de datos al consumo.

Asha Sharma, CEO de Xbox, declaró públicamente que en los últimos dos años, el costo de la memoria ha aumentado aproximadamente cinco veces, lo que ha impedido directamente que la empresa produzca suficientes consolas de juegos para satisfacer la demanda del mercado. Apple también ha anunciado aumentos de precios en iPhone, Mac, iPad y otros productos.

Shawn Kim, analista de Morgan Stanley, afirmó directamente que el aumento vertiginoso de los precios de la memoria y la escasez de oferta se están convirtiendo en un riesgo generalizado para la economía digital, "desde el cuello de botella de la infraestructura de IA hasta los márgenes de beneficio del hardware, la asequibilidad de los dispositivos, los costos de la nube, la inflación e incluso el nivel de las políticas".

En la lista de materiales del servidor, el cambio en la proporción de DRAM es aún más revelador. En 2023, la DRAM representaba aproximadamente el 50% del costo total del servidor; a mediados de 2026, esta proporción ha aumentado al 60% al 90%, con un promedio de aproximadamente el 75%. El precio de la CPU no ha disminuido, pero en comparación con el aumento vertiginoso del precio de la memoria, el aumento de la CPU parece insignificante.

Irónicamente, la memoria adquirida a un alto costo no se utiliza de manera eficiente. Los datos de pruebas de hiperescaladores como Meta muestran que, en los centros de datos, solo aproximadamente la mitad de la capacidad de la memoria alberga "datos activos", mientras que una gran cantidad de datos fríos ocupan recursos de DRAM costosos durante mucho tiempo.

Ante el alto costo y la escasez de DRAM, los actores de la industria están buscando caminos alternativos: ya no se trata simplemente de acumular hardware, sino de utilizar medios técnicos para reducir la dependencia de la DRAM.

AMD: Programación predictiva con IA, haciendo que la memoria flash sea "invisible" como memoria

AMD ha optado por la ruta de software más ligera.

En junio de 2026, AMD anunció la adquisición de MEXT, una empresa de optimización de memoria. Su objetivo principal es introducir una tecnología de jerarquización de memoria impulsada por IA, que mueva los datos fríos de la costosa DRAM a la NAND flash de bajo costo, logrando una expansión de bajo costo de la capacidad efectiva de memoria.

Se informa que MEXT se fundó en 2023 y su equipo fundador tiene una trayectoria importante: el cofundador y CEO Gary Smerdon fue anteriormente director de estrategia y productos de Fusion-io, un pionero en la comercialización a gran escala del almacenamiento flash. Hace más de una década, Apple y Meta Platforms eran sus principales clientes.

MEXT, para abordar el cuello de botella de la eficiencia de la memoria, lanzó una tecnología de jerarquización de memoria basada en IA. Esta tecnología puede transferir datos de baja frecuencia de acceso desde la costosa DRAM a la NAND flash, cuyo costo por unidad de capacidad es mucho menor, sin afectar el funcionamiento de las aplicaciones.

El producto principal de MEXT es el Predictive Memory Engine (Motor de Memoria Predictiva), una solución de jerarquización de memoria completamente basada en software: monitorea continuamente los patrones de acceso de las aplicaciones a nivel de página de memoria, migrando automáticamente los datos fríos de baja frecuencia a la NAND flash (cuyo costo por bit es solo aproximadamente 1/55 del de la DRAM); al mismo tiempo, mediante modelos de IA, aprende los patrones de acceso de las cargas de trabajo, predice las páginas de datos que se llamarán próximamente y las precarga proactivamente en la DRAM antes de que la aplicación las solicite, permitiendo que el software lea los datos como si accediera directamente a la memoria principal, asegurando así que el rendimiento no se vea afectado.

Fuente de la imagen: Nextplat

Todo el mecanismo es completamente transparente para el sistema operativo y las aplicaciones superiores. No requiere modificar ningún código de negocio ni agregar hardware dedicado, y se puede implementar en minutos.

Los datos oficiales muestran que esta solución puede aumentar la capacidad efectiva de memoria del sistema de 2 a 4 veces y reducir el costo total de infraestructura en aproximadamente un 50%. En escenarios típicos como la base de datos de grafos Neo4j, la simulación EDA y el renderizado de películas, una configuración con una relación 1:1 de DRAM a flash puede alcanzar aproximadamente el 95% del rendimiento de una configuración de solo DRAM, pero con un costo significativamente reducido.

MEXT realizó pruebas comparativas anteriores en servidores Dell e instancias en la nube de AWS:

Comparación de configuraciones con y sin MEXT Extended Memory en Dell/AWS (Fuente: Nextplat)

Cuando se utiliza MEXT Extended Memory, el rendimiento y la relación precio-rendimiento de la base de datos de grafos Neo4j con relaciones de memoria a flash de 1:1 y 1:3:

Fuente: Nextplat

Aunque la idea de MEXT no es revolucionaria (la jerarquización de memoria y la migración de datos fríos a medios de almacenamiento más baratos son conceptos que existen desde hace bastante tiempo), las tecnologías anteriores no lograron una implementación a gran escala en centros de datos debido a la precisión insuficiente de los algoritmos de predicción. Si la predicción falla, cuando el programa necesita los datos, debe recuperarlos de la flash a la DRAM, lo que expone directamente la latencia y hace que la pérdida de rendimiento sea inaceptable.

El avance de MEXT radica en utilizar modelos de IA para esta tarea. Su Predictive Memory Engine analiza continuamente los patrones de acceso a la memoria, determina mediante IA qué páginas de datos tienen más probabilidades de ser utilizadas a continuación y, antes de que la aplicación realice la solicitud, mueve proactivamente los datos de la flash a la DRAM.

Para AMD, esta adquisición completa una pieza clave de su capacidad integral. Además de las CPU EPYC, las GPU Instinct y la pila de software ROCm, la capa de eficiencia de memoria de MEXT permite a AMD ofrecer a los clientes una solución completa que va desde los chips hasta la programación del flujo de datos. Esto ayuda a los clientes a reducir el costo total de propiedad y minimiza el tiempo de inactividad de las GPU mientras esperan datos, al mismo tiempo que fortalece su propia competitividad en el mercado de infraestructura de IA.

El día del anuncio de la adquisición, las acciones de AMD subieron casi un 7% durante la sesión, y el mercado expresó su aprobación de esta estrategia.

Por supuesto, hay que decir que aún queda por ver hasta qué punto la tecnología de MEXT se implementará finalmente en los productos de centros de datos de AMD. La diferencia física en latencia entre la NAND flash y la DRAM es objetiva, y si la predicción de IA a nivel de software puede realmente cerrar esta brecha dependerá del rendimiento real después de una implementación a gran escala.

Apple: Modelos grandes en el dispositivo, almacenando el modelo en la memoria flash

Mientras los centros de datos se enfrentan al alto costo de la DRAM, el lado del consumo enfrenta las mismas limitaciones: la capacidad de DRAM en dispositivos como teléfonos es extremadamente limitada, pero deben soportar las demandas de inferencia de modelos grandes en el dispositivo. La respuesta de Apple es mantener los modelos grandes en la memoria flash y cargarlos en la memoria según sea necesario.

El último AFM 3 Core Advanced de Apple es un modelo grande en el dispositivo con 20 mil millones de parámetros. Si se cargara todo en la DRAM de la manera tradicional, superaría con creces el límite de memoria de los dispositivos de consumo. Apple resolvió este problema mediante una arquitectura de activación dispersa: el modelo completo se almacena en la NAND flash; durante la inferencia, no se cargan todos los pesos, sino que, según el mensaje de entrada, se seleccionan de una vez los módulos expertos necesarios para esa inferencia, cargando solo un conjunto de trabajo de 1 a 4 mil millones de parámetros en la DRAM.

Diagrama esquemático de la arquitectura del modelo AFM 3 Core Advanced

A diferencia de los modelos MoE tradicionales, que cambian de experto token por token, lo que provoca frecuentes transferencias de datos, Apple utiliza un mecanismo de enrutamiento granular por mensaje, combinado con una alta proporción de expertos compartidos que residen permanentemente en la DRAM. Esto reduce significativamente el número de intercambios entre la flash y la memoria, minimizando la latencia de carga. Combinado con optimizaciones como la poda a nivel de instrucción (IFP) y la simplificación de capas de Transformer, finalmente se logra que el pico de ocupación de DRAM del modelo de 20 mil millones de parámetros se controle entre 2 GB y 8 GB, equilibrando aún más la ocupación de memoria y la eficiencia computacional, resolviendo efectivamente el problema de la alta ocupación de DRAM de MoE en la implementación en el dispositivo, permitiendo que funcione sin problemas en terminales como el iPhone, logrando una inferencia en el dispositivo de "modelo grande, memoria pequeña".

Esta arquitectura no es el resultado de un esfuerzo de último momento.

De hecho, ya en 2024, el equipo de investigación de Apple publicó el artículo "LLM in a Flash", que verificó sistemáticamente la ruta técnica de almacenar los parámetros del modelo grande en la memoria flash y programarlos según sea necesario. Esto reduce los costos de computación en la nube al mismo tiempo que proporciona un soporte de arquitectura de memoria viable para aplicaciones de IA en el dispositivo, logrando velocidades de inferencia de 4 a 5 veces y 20 a 25 veces más rápidas que la carga ingenua en CPU y GPU, respectivamente.

Cuando el aumento de precio de la DRAM se transmite del lado de la industria al de los productos electrónicos de consumo, esta solución no solo respalda la experiencia de IA en el dispositivo, sino que también reduce la dependencia del dispositivo de la DRAM de gran capacidad.

En general, las dos rutas de AMD y Apple avanzan simultáneamente para centros de datos y dispositivos, respectivamente, pero ambas apuntan a la misma conclusión: la jerarquía de memoria para la inferencia de IA se está reestructurando. Los KV cache de baja frecuencia, los pesos del modelo y los datos del dispositivo se moverán gradualmente de la costosa HBM/DRAM a la capa de NAND Flash/SSD, formando una arquitectura de almacenamiento de múltiples niveles.

Esta transformación arquitectónica está generando efectos de transmisión de múltiples niveles a lo largo de la cadena industrial. Según Citrini Research, el nivel de beneficio más directo son los fabricantes de NAND.

Marvell: Compresión de hardware + CXL, expandiendo la memoria física

Si AMD y Apple han optado por rutas de optimización de software y arquitectura, Marvell ha elegido un avance a nivel de hardware, aprovechando el protocolo de interconexión de alta velocidad CXL para utilizar la compresión integrada en hardware y aumentar directamente la capacidad equivalente de la DRAM física.

En junio de 2026, Marvell lanzó la serie Structera de controladores CXL: Structera X (controlador de expansión de memoria) y Structera A (acelerador cercano a la memoria). Ambos chips incorporan un módulo de compresión de hardware CDB (Compression-Decompression Block) desarrollado internamente.

Se sabe que, al escribir datos en la DRAM, el módulo CDB utiliza un algoritmo de compresión LZ4 personalizado sin pérdidas para comprimir en tiempo real; al leer, se descomprime simultáneamente. Todo el proceso se completa de forma independiente en el enlace de memoria, sin consumir capacidad de cálculo de la CPU del host y es completamente transparente para las aplicaciones superiores. Dependiendo del tipo de datos, 1 GB de DRAM física puede proporcionar una capacidad lógica equivalente de 2 a 3.64 veces: en escenarios de bases de datos híbridas, la relación de compresión promedio puede alcanzar 3.64:1, lo que equivale a satisfacer las mismas necesidades comerciales con menos de un tercio de la memoria física.

Además, esta solución ofrece dos beneficios adicionales de reducción de costos: primero, reutilización de memoria antigua: el controlador Structera X admite la conexión de memoria DDR4, lo que permite incorporar DDR4 retirada en el pool de memoria CXL, reduciendo la necesidad de nuevas compras de DDR5 costosa; segundo, agrupación de memoria: a través del protocolo CXL, se rompe la exclusividad de la memoria por parte de una sola CPU, permitiendo que múltiples servidores compartan los recursos de memoria, absorbiendo la capacidad inactiva del sistema.

Con el precio spot actual de DDR5 de $27 a $37 por GB, un pool de memoria de 12 TB tiene un costo de hardware de DRAM de casi $500,000; si se estima una relación de compresión de 3x, la compra de DRAM física se puede reducir en dos tercios, ahorrando más de $300,000 por pool.

SanDisk: Metiendo NAND debajo de la GPU

La solución de SanDisk es aún más agresiva: reestructurar la arquitectura de memoria de los chips de IA desde el nivel del encapsulado.

SanDisk está colaborando con SK Hynix para impulsar la estandarización de la memoria flash de alto ancho de banda (HBF), con el objetivo de acercar la NAND flash al núcleo de computación, creando un nuevo nivel de almacenamiento entre HBM y SSD.

La patente de SanDisk propone una arquitectura de "NAND debajo de la GPU": apilar NAND flash de alta capacidad directamente debajo de la GPU o el acelerador de IA, rodeada de pilas de HBM. Al acortar significativamente la distancia de transmisión de datos, se mejora el ancho de banda de acceso a la flash. Según el plan, HBF será físicamente compatible con HBM4, con una capacidad de 8 a 16 veces la del HBM del mismo volumen, y tendrá una ventaja de costo significativa, dirigida a escenarios intensivos en lectura como la inferencia de contexto largo, el KV cache y la carga de pesos de modelos de forma continua.

Esta tecnología, denominada HBF (High Bandwidth Flash), se posiciona entre HBM y SSD. Si comparamos HBM con un "libro de referencia" sobre la mesa, entonces la NAND basada en HBF sería una "estantería" colocada junto a la GPU. HBM maneja los datos que requieren una respuesta inmediata, mientras que la NAND debajo de la GPU almacena datos más grandes y se lee y escribe repetidamente.

El objetivo de SanDisk es desarrollar HBF con un ancho de banda cercano al de HBM, ofreciendo de 8 a 16 veces la capacidad de HBM a un costo similar. En febrero de 2026, SanDisk y SK Hynix lanzaron oficialmente la alianza de estandarización de especificaciones HBF. SK Hynix aporta su experiencia en apilamiento, encapsulado y tecnología de interposer acumulada en HBM, mientras que SanDisk aporta su capacidad de diseño de NAND y memoria flash. Ambas compañías planean lanzar las primeras muestras de HBF en la segunda mitad de 2026 y aplicarlas en dispositivos de inferencia de IA a principios de 2027. El objetivo es construir una arquitectura de memoria de tres niveles: HBM se encarga de la computación instantánea de baja latencia, HBF asume la lectura repetitiva de gran capacidad y alto rendimiento, y SSD se encarga del almacenamiento en frío, cada nivel con su función.

Por supuesto, la comercialización a gran escala de HBF aún debe superar múltiples obstáculos. La alta densidad térmica generada por el apilamiento de chips de computación y NAND, los desafíos de rendimiento de la unión híbrida y el enrutamiento complejo, así como el ecosistema de software para la programación de datos calientes y fríos, requieren tiempo para perfeccionarse.

Según las estimaciones de Shin Young Securities de Corea, se espera que el mercado de HBF se forme en 2027 y alcance los $12 mil millones para 2030.

Para los proveedores de la nube con decenas de miles de nodos, esto significa una enorme optimización del gasto de capital. Actualmente, Structera es el primer controlador CXL con compresión integrada en hardware que se produce en masa del sector. La solución técnica relacionada se ha presentado al proyecto de computación abierta OCP para su estandarización, y el alcance de la adaptación se ampliará aún más en el futuro.

Lección del pasado: El camino inconcluso de 3D XPoint

Para ser sinceros, el uso de la memoria flash para expandir la memoria principal no es nuevo.

Ya en 2015, Intel y Micron lanzaron conjuntamente la tecnología de almacenamiento 3D XPoint, cuya visión apuntaba precisamente al punto crítico de la industria actual: crear un nuevo medio de almacenamiento con un rendimiento entre DRAM y NAND flash, que admita direccionamiento por bytes y tenga un costo cercano al de la flash, construyendo un nuevo nivel entre la memoria y el almacenamiento tradicional.

Lamentablemente, 3D XPoint finalmente no cumplió su promesa inicial.

El retraso en el desarrollo del proceso hizo que su costo alcanzara el de la DRAM, mientras que su rendimiento era solo unas pocas veces más rápido que el de la flash común. Además, la estrategia cerrada de Intel de vincularlo a sus procesadores Xeon impidió su entrada en el mercado principal. Finalmente, el proyecto se canceló y el negocio de memoria flash de Intel se vendió a SK Hynix. Esta tecnología, que alguna vez fue prometedora, se convirtió en una nota triste en la industria del almacenamiento.

Si Intel no hubiera abandonado 3D XPoint, ¿cuán grandes habrían sido sus ganancias hoy? Lástima que la historia no tenga "si".

Además, algunas startups nacionales que trabajan en soluciones de integración de almacenamiento y memoria, y de agrupación de memoria, probablemente recibirán más atención en el futuro. Después de todo, en el contexto de los altos precios de la DRAM y la restricción del lado de la oferta, quien pueda presentar una solución de optimización de memoria realmente sólida podría obtener la próxima ronda de financiación en el mercado de capitales.

Reflexiones finales

Desde el fracaso de 3D XPoint hasta la coexistencia de múltiples rutas hoy en día, la exploración de la eficiencia de la memoria en la industria del almacenamiento nunca se ha detenido.

AMD utiliza la predicción de IA para programar datos calientes y fríos; Apple utiliza la activación dispersa y el almacenamiento en flash para comprimir la ocupación de memoria en el dispositivo; Marvell utiliza la compresión de hardware para que la memoria física sea más efectiva; SanDisk utiliza el apilamiento 3D para colocar la NAND debajo de la GPU; las rutas técnicas de las cuatro empresas son diferentes, pero apuntan en la misma dirección: la jerarquía de memoria para la inferencia de IA se está reestructurando: los datos calientes permanecen en DRAM y HBM para garantizar el rendimiento; los datos tibios y fríos se desplazan gradualmente a la capa flash para soportar la capacidad; múltiples medios cooperan para equilibrar el rendimiento y el costo.

El alto costo de la DRAM está empujando a toda la industria a un punto crítico. Pero es precisamente esta presión la que ha generado una serie de innovaciones tecnológicas impresionantes.

Es innegable que la brecha física de latencia entre la flash y la DRAM siempre existirá, y el rendimiento real de varias soluciones aún necesita ser verificado mediante implementaciones a gran escala. Pero lo que es seguro es que la era de simplemente acumular DRAM para resolver problemas está pasando. Un sistema de memoria más eficiente y más jerarquizado es la nueva dirección de la industria.

Fuente de este artículo: Observación de la industria de semiconductores

Declaración de riesgos y cláusula de exención de responsabilidad

        El mercado tiene riesgos, la inversión debe ser cautelosa. Este artículo no constituye un consejo de inversión personal y no considera los objetivos de inversión, la situación financiera o las necesidades específicas de usuarios individuales. Los usuarios deben considerar si cualquier opinión, punto de vista o conclusión en este artículo se adapta a su situación particular. Cualquier inversión basada en esto es bajo su propia responsabilidad.

DRAM1,31%

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
gStocksTokenizedStocksLive
4,81M Popularidad
#
StrongNonfarmPayrollsRekindleRateHikeFear
1,07M Popularidad
#
IsraelStrikesIranBTCPlunges
68,8K Popularidad
#
PredictWorldCupShare20000U
234,41K Popularidad
#
ETHBreaks1700
152,63M Popularidad

Fijado

El mundo ha sufrido por DRAM durante mucho tiempo.

Crisis de DRAM, estallido total

AMD: Programación predictiva con IA, haciendo que la memoria flash sea "invisible" como memoria

Apple: Modelos grandes en el dispositivo, almacenando el modelo en la memoria flash

Marvell: Compresión de hardware + CXL, expandiendo la memoria física

SanDisk: Metiendo NAND debajo de la GPU

Lección del pasado: El camino inconcluso de 3D XPoint

Reflexiones finales

Temas de actualidad

gStocksTokenizedStocksLive

StrongNonfarmPayrollsRekindleRateHikeFear

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

ETHBreaks1700

Fijado