Proyección del final de los semiconductores de IA: ¿la brecha durará al menos cinco años más?

Título original: «Proyección del final del juego de los semiconductores de IA 2026 (II)»
Autor original: fin, analista de IA

Cuando la evolución estructural de los semiconductores llega a la línea principal de inferencia de IA, la memoria y el almacenamiento se convierten en los mayores cuellos de botella. La mayor duda del mercado sobre la memoria y el almacenamiento es:

¿Podrán HBM/DRAM/SSD liberarse del ciclo tradicional?

¿Se detendrá la evolución de la arquitectura de GPU que depende del crecimiento exponencial de HBM? ¿Cuándo se detendrá?

¿Cuál será el impacto de la expansión de ChangXin? ¿Volverá a sumergir este mercado en el atolladero del ciclo?

Este artículo intenta establecer un marco para abordar estas cuestiones

Todo tiene ciclos, y la memoria tiene un ciclo particularmente fuerte. La mayor fuente proviene del largo período de expansión de la capacidad, que no puede expandirse rápidamente y está desalineado con los períodos de escasez de demanda.

Varias formas posibles de liberarse del ciclo tradicional

  1. Personalización: los productos no son intercambiables, la capacidad no se puede transferir fácilmente y se necesitan contratos a largo plazo.

  2. Crecimiento exponencial estructural de la demanda: la curva de demanda es muy pronunciada y la oferta nunca puede alcanzarla.

  3. Actualización rápida de la iteración tecnológica: cada nueva generación elimina rápidamente a la anterior.

Cumplir con cualquier condición permite liberarse parcialmente del ciclo tradicional; cumplir con dos o tres permite liberarse de la mayor parte del ciclo tradicional.

Según este marco, HBM cumple aproximadamente dos y media de las tres condiciones.

  1. Personalización, necesidad de contratos a largo plazo (débil, cuenta como media) ====================

HBM tiene cierto grado de personalización y codesign con Nvidia, pero no es muy fuerte. La parte verdaderamente personalizada solo está en el empaquetado y el base die; las más de diez capas de DRAM die superiores siguen siendo completamente estándar JEDEC.

Por ejemplo, cuando el HBM3E de Samsung no pasó la calificación de NVIDIA y su cuota cayó de aproximadamente el 60% al 20%, no se quedó con esa capacidad de producción inservible, sino que la transfirió a los TPU de Google y a AMD. Físicamente, el HBM3E para NVIDIA y el HBM3E para AMD son la misma cosa. Por lo tanto, la capacidad sigue siendo parcialmente transferible libremente.

Después de HBM4, habrá más personalización, incluida la integración de lógica personalizada y/o caché en el base die. Una forma más compleja es colocar directamente el controlador de memoria HBM4E y la interfaz die-to-die personalizada en el base die lógico.

SemiAnalysis mencionó que OpenAI, NVIDIA y AMD están trabajando en HBM personalizado, pero esto se refiere a la personalización del base die; las capas de DRAM superiores siguen siendo estándar.

Debido a la característica de personalización parcial, la cooperación en el empaquetado requiere que los clientes firmen contratos a largo plazo, pero la capacidad realmente se puede transferir, por lo que HBM apenas puede contar como media condición.

  1. Crecimiento exponencial estructural de la demanda (cumplida) =================

La razón más intuitiva es la necesidad de actualización de hardware de la fábrica de tokens de Nvidia (token throughput), que provoca que la actualización del ancho de banda de HBM sea muy rápida y que la demanda de tamaño de HBM crezca exponencialmente.

Esta condición es en realidad la conclusión del artículo anterior «Proyección del final del juego de los semiconductores de IA 2026 (I)»:

token throughput = tamaño de HBM × ancho de banda de HBM, duplicándose cada generación.

El tamaño de HBM por GPU crece aproximadamente más del 40% anual.

La pendiente de esta curva de demanda es difícil de alcanzar para la oferta de DRAM, que tiene un crecimiento de obleas del 14% y una mejora de densidad del 9%.

En el ámbito del hardware, debido a los requisitos de ancho de banda extremadamente alto y tamaño de memoria extremadamente grande del KV cache en la fase de atención, HBM tiene una posición única. Incluso si HBM sube de precio tres o cinco veces, la mejora marginal en el token throughput que se obtiene al gastar dinero en HBM sigue siendo mucho más rentable que gastarlo en otras áreas.

Otras rutas de memoria, como SRAM, HBF, CXL, PIM, actualmente no pueden competir directamente con HBM en la pista principal de kv cache/attention, y es poco probable que encuentren una ruta alternativa en los próximos 5 años o más.

  1. Actualización rápida de la iteración tecnológica (cumplida) ===============

La era de DDR3 duró 15 años y aún estamos en la era de DDR5, mientras que la velocidad de actualización de HBM es básicamente de dos años por generación, mucho más rápida que la DDR tradicional, y recientemente muestra una tendencia a acelerarse. El tamaño de HBM × el ancho de banda de HBM se duplica cada generación, lo que actualmente cumple completamente con esta regla.

Con una actualización de HBM cada dos años, la velocidad de las GPU de NV aumenta de forma exponencial: 2TB/s -> 3.5TB/s -> 4.8TB/s -> 8TB/s -> 22TB/s, y la velocidad de HBM es directamente proporcional al token throughput de inferencia. El costo marginal de usar la generación anterior de HBM se vuelve desventajoso, y todos tienen incentivos para usar los productos más nuevos. Aunque son más caros, los beneficios (token throughput) son mayores.

En la era de la fábrica de tokens, la lógica es: cuanta más actualización tecnológica (ancho de banda de HBM), más se gana.

Esta diferencia de velocidad crea una situación similar a la de las CPU: los productos antiguos se deprecian rápidamente, por lo que el valor de almacenar inventario se reduce. Por ejemplo, el valor de HBM3 se deprecia muy rápido, y hoy en día básicamente no se usa en productos principales.

Por lo tanto, la elección racional de los fabricantes de HBM pasa de competir por la capacidad actual para ocupar el mercado (competencia de cantidad) a competir en estabilidad y velocidad de HBM, y en la cuota de calificación de la próxima generación en la plataforma de NVIDIA (competencia de calidad), evitando así el dilema del prisionero en la fase descendente del ciclo tradicional, donde nadie quiere reducir la producción y perder cuota de mercado.

Comparando HBM con DRAM tradicional, cumple dos y media de las tres condiciones. ¿Puede HBM liberarse del ciclo tradicional?

La fuente del ciclo de la memoria, según la narrativa principal, es que DRAM tiene una naturaleza de materia prima (sin diferenciación → guerra de precios → inventario acumulable), por lo que tiene ciclicidad.

Pero la naturaleza de materia prima en sí misma no genera ciclos; solo es un amplificador de amplitud.

Especialmente en el campo de DRAM, hubo un dilema del prisionero: en el ciclo descendente, Samsung expandió la capacidad para ganar cuota de mercado, y quien redujera la producción primero saldría perdiendo, lo que llevó a que nadie se atreviera a reducir la producción fácilmente, resultando en pérdidas generalizadas.

En realidad, la principal fuente estructural de la ciclicidad es que el ciclo de oferta es demasiado largo y es fácil que se desalinee con el ciclo de demanda. Construir una fábrica lleva 3 años, con inversiones de decenas de miles de millones de dólares, y una vez que se toma la decisión, es irreversible. El crecimiento de la demanda es inestable; cada vez que surge un nuevo paradigma de crecimiento, como servicios en la nube, teléfonos móviles con internet, demanda en línea por la pandemia, hay un crecimiento explosivo, pero después de dos años el crecimiento se desacelera, la oferta supera a la demanda, los precios bajan bruscamente y se convierte en un ciclo de pérdidas.

Todo tiene ciclos, y HBM no puede evitar esto. Pero mientras la demanda de tokens siga siendo exponencial, el crecimiento exponencial estructural atenuará la ciclicidad, porque la demanda es más predecible y, una vez que bajan los precios, los clientes tienen una necesidad de aumentar el tamaño de HBM (aumentando así el token throughput). Además, HBM tiene ciertos requisitos de personalización que implican contratos a largo plazo, transformando la ciclicidad en un ciclo de crecimiento, y este ciclo será particularmente largo.

· Ciclicidad: se gana mucho en el ciclo ascendente, se pierde mucho en el descendente. · Ciclo de crecimiento: se gana mucho en el ascendente, se gana menos en el descendente.

Además, sobre la base de estas tres condiciones para liberarse del ciclo tradicional, HBM/DRAM tiene una ventaja importante adicional:

  1. Debido a que el escalado de densidad de DRAM se vuelve cada vez más lento y la actualización de HBM provoca un aumento en el número de apilamientos de DRAM, la dificultad de expandir la capacidad de la oferta sigue aumentando. ====================================================================

Alrededor del año 2000, la densidad de bits de DRAM por oblea crecía aproximadamente un 45% anual. Esto significa que, incluso sin expandir el número de obleas, la oferta anual de bits de DRAM aún podía crecer un 45%.

Hace diez años, el crecimiento anual de densidad de bits de DRAM se redujo al 20%, y ahora ha caído al 9%. Antes, la expansión de DRAM apenas necesitaba construir nuevas fábricas para obtener un aumento anual del 20-30% en volumen de bits. Ahora, la expansión de DRAM depende más del crecimiento del número de obleas, es decir, de la construcción de nuevas fábricas y salas limpias.

Otra dificultad para la rápida expansión de HBM es que HBM3e requiere aproximadamente 3 veces las obleas de DRAM, mientras que HBM4, debido al aumento en la densidad de apilamiento, requiere aproximadamente 4 veces las obleas de DRAM. Esto significa que los bits de HBM son cada vez más difíciles de fabricar en comparación con los bits de DRAM, y la cantidad de bits de HBM producidos por unidad de oblea de DRAM disminuye, lo que equivale a una deflación.

¿Volverá HBM algún día de un ciclo de crecimiento a un ciclo tradicional? El factor más importante es el crecimiento exponencial estructural. Entonces,

En la era de inferencia de IA, ¿se detendrá la evolución de la arquitectura de GPU que depende del crecimiento exponencial de HBM? ¿Cuándo se detendrá?

token throughput = tamaño de HBM × ancho de banda de HBM. La razón del crecimiento exponencial del tamaño de HBM en este primer principio es precisamente el crecimiento del KV cache. Las características de KVCache y de Attention se adaptan muy bien a HBM. Incluso hacen que HBM sea superior a otras rutas tecnológicas, maximizando la utilización de KVCache y la fase de Attention.

En otras palabras, si KV cache desapareciera de la arquitectura, la lógica del crecimiento exponencial del tamaño de HBM también se vería desafiada.

Por lo tanto, la esencia de esta pregunta es: ¿desaparecerá el mecanismo de attention representado por Transformer en esta ronda, y su mecanismo derivado KV cache? ¿Será reemplazado después de que la marea baje?

Desde las leyes históricas: cada revolución en la arquitectura de modelos de IA, las operaciones primitivas que realmente se conservan son aquellas que tienen cierta universalidad matemática.

Por ejemplo: FFN (feedforward network, es decir, las numerosas capas MLP en los modelos) es un producto de la era del deep learning de 2012, pero ha sobrevivido hasta los modelos de lenguaje grandes actuales y aún ocupa una gran cantidad de parámetros. ¿Por qué ha sobrevivido? Porque también es un teorema de aproximación universal: cualquier MLP suficientemente ancho puede aproximar cualquier función continua.

Attention es probablemente una primitiva que también se conservará. Porque resuelve un problema igualmente fundamental: el enrutamiento dinámico entre dos posiciones cualesquiera en una secuencia, permitiendo que dos posiciones cualesquiera en una secuencia establezcan una conexión según sea necesario. Una vez que se demuestra que esta capacidad es efectiva, es difícil de descartar.

Por lo tanto, incluso si la arquitectura futura evoluciona de Transformer puro a una arquitectura híbrida, o a un modelo del mundo, la capa de attention seguirá existiendo, KV cache (o su equivalente después de compresión latente) seguirá siendo necesaria, y HBM seguirá siendo uno de los núcleos de inferencia. Esta línea de evolución de la arquitectura de GPU que depende del crecimiento exponencial de HBM para KV cache no se detendrá.

¿Y DRAM? ¿Hay posibilidad de liberarse del ciclo tradicional en el futuro?

Existe cierto consenso en el mercado sobre que HBM se libera del ciclo, pero actualmente no hay consenso sobre DRAM.

Volviendo al marco anterior: entre las tres condiciones para liberarse del ciclo tradicional, DRAM no tiene personalización, por lo que solo se puede considerar la velocidad de iteración tecnológica. Lo más crucial es si hay un crecimiento exponencial estructural. La respuesta es sí.

En el concepto de fábrica de tokens de IA, el crecimiento exponencial estructural ciertamente se centra en HBM. Pero las cosas cambiaron después de finales de 2025: a medida que las CPU agentes comienzan a liberar su potencial, la demanda de DRAM asociada a las CPU se está convirtiendo en una nueva fuente de crecimiento exponencial estructural para DRAM.

La lógica de este crecimiento se divide en dos capas: la primera capa es el rápido crecimiento de TAM de servidores CPU, y la segunda capa es el rápido crecimiento de la cantidad de DRAM por núcleo de CPU de servidor debido al flujo agente.

Los 4 motivos del rápido crecimiento del TAM de CPU de servidor se detallaron en el artículo especial sobre CPU de abril. En resumen:

  1. La proporción de CPU y GPU en clústeres de aceleradores de IA pasa de 1:4 tradicional a 1:2, e incluso podría avanzar hacia 1:1.

  2. En el flujo agente, la latencia del procesamiento de la CPU representa una alta proporción, del 50 al 90%, convirtiéndose en un cuello de botella importante que requiere una expansión sincronizada.

  3. La codificación de IA mejora enormemente la eficiencia de los SDE, el volumen de código crece en órdenes de magnitud, y las llamadas a API de software crecen exponencialmente, lo que se traduce directamente en un aumento exponencial de estas horas de CPU.

  4. Sandbox, para garantizar la seguridad y el aislamiento de los datos, como en Analytical Agent, necesita replicar grandes cantidades de bases de datos y contexto de usuario para cada tarea, lo que provoca un grave desperdicio de memoria (DRAM) y núcleos de CPU. Este problema de desperdicio no se puede resolver en cinco años o más. Además, las horas de CPU son técnicamente difíciles de deflactar mediante métodos de optimización.

Esta es la razón por la que, en el trimestre anterior, AMD informó que el TAM de CPU alcanzaría los 60 mil millones para 2030; hace dos meses, AMD/ARM duplicó su predicción de TAM de CPU para 2030 a 120 mil millones; hace un mes, Nvidia volvió a duplicar su predicción de TAM de CPU para 2030 a 200 mil millones.

Y la semana pasada, Bernstein aumentó nuevamente la guía de TAM de CPU para 2030 a 223 mil millones. En mi opinión, no hay mucha duda de que el TAM de CPU para 2031 se revisará al alza hasta 400 mil millones en el futuro. La única duda es cuándo los gigantes anunciarán esta revisión al alza.

Segunda capa: ¿Por qué la cantidad de DRAM por núcleo de CPU de servidor está creciendo rápidamente en la era agente?

  1. Los agentes son procesos residentes de larga duración con estado, no solicitud-respuesta sin estado.

La web/SaaS tradicional es stateless: llega una solicitud, se asigna memoria, se procesa y la memoria se libera inmediatamente. En cambio, una tarea de agente puede durar desde un minuto hasta una hora. Durante todo este tiempo, su historial de mensajes, prompt del sistema, memoria de trabajo, memoria a largo plazo y buffer de resultados de herramientas residen permanentemente en DRAM.

Al igual que con las horas de CPU, la huella de memoria de cada tarea debido a los requisitos de estado y aislamiento de sandbox (cada tarea replica la base de datos y el contexto) es técnicamente difícil de comprimir.

  1. La ventana de contexto se está alargando exponencialmente, el conjunto de trabajo de cada sesión se expande en consecuencia, y la concurrencia × la huella de memoria por sesión se multiplica.

La ventana de contexto pasa de 32K → 256K → 1M, la longitud de secuencia de razonamiento/cómputo en tiempo de prueba explota, y seguirá aumentando en el futuro. Los mensajes residentes de cada sesión activa crecen linealmente con la longitud del contexto.

Ahora multipliquemos las dos capas.

Primera capa: el TAM de servidores CPU, hacia 2030-2031, es aproximadamente 5-7 veces (60B → 120B → 200B → 223B, y creo que llegará a 400B).

Segunda capa: la proporción de DRAM por CPU, aproximadamente 3-4 veces (4~8GB → 16~32 GB/núcleo), pero este crecimiento puede ser en gran parte un dividendo único.

Multiplicando las dos variables independientes, la demanda de DRAM en el lado del servidor es un crecimiento de órdenes de magnitud.

En 2030, incluso con un TAM de CPU conservador de 300B, y un núcleo de CPU a $50, en la era agente, conservadoramente 16GB/núcleo, esto da como resultado un nuevo volumen de al menos 96EB, mientras que la producción total de DRAM este año es de solo 47EB, y el próximo año apenas 60EB. Este es un incremento asombroso.

Aunque este crecimiento exponencial de DRAM impulsado por CPU agente es, en gran medida, un dividendo único en la segunda capa, durará mucho, mucho tiempo porque la brecha de escasez es demasiado grande.

Volviendo al marco del principio del artículo. De las tres condiciones para liberarse del ciclo tradicional, la primera, la personalización de DRAM, puede ignorarse básicamente.

La segunda condición: una fuente de demanda estructuralmente exponencial y difícil de revertir es válida. El DRAM como materia prima ahora también califica para liberarse parcialmente del ciclo tradicional. No es tan completo como HBM (dos y media), pero ya es un cambio sustancial.

La tercera condición: la velocidad de iteración tecnológica. El ritmo de DRAM también ha cambiado en comparación con antes.

Porque antes, la velocidad de iteración tecnológica de DRAM dependía en gran medida de la electrónica de consumo; la mejora de DDR no era muy útil para el rendimiento. Pero en el futuro previsible, el consumo de DRAM tradicional basado en carbono será mucho menor que el consumo de DRAM basado en silicio (servidores CPU).

Antes, la utilidad marginal de la actualización de velocidad de DRAM era muy baja. Pero ahora, debido al aumento de la demanda de memoria en los servidores CPU y al aumento de los requisitos de velocidad de DDR en el lado del dispositivo (por ejemplo, Apple, para ejecutar modelos grandes locales, necesita LPDDR cada vez más rápido).

La utilidad marginal de la actualización de velocidad ha aumentado considerablemente, por lo que los requisitos de iteración de velocidad de DDR6 y LPDDR6 han mejorado enormemente en comparación con antes. Esto también se puede ver en el gráfico: el tiempo de iteración de LPDDR6/DDR6 se ha acortado y la pendiente de velocidad ha comenzado a subir nuevamente.

Antes, cuando salía una nueva generación de DDR/LPDDR, la reacción de todos era muy fría; solo la usaban cuando bajaban de precio.

Ahora, cuando sale LPDDR6, todos quieren subirse lo antes posible, porque la mejora de velocidad ofrece una mejora de rendimiento tangible.

Además, la oferta de DDR también tiene que pagar un impuesto adicional debido a HBM. La velocidad de expansión anual de HBM es demasiado rápida, lo que hace que cada año un lote de obleas que originalmente podrían usarse para DDR como materia prima se desvíe a HBM. La tasa de conversión de HBM es extremadamente baja; HBM3E requiere aproximadamente 3 obleas de DDR para producir la misma cantidad de bits, y HBM4 requiere 4 obleas. Por lo tanto, aproximadamente del 3% al 5% del crecimiento de bits de DDR se consume directamente por este impuesto de bits de HBM.

Por lo tanto, aunque el volumen de bits de DRAM puede crecer alrededor del 24% anual en el futuro (14% del crecimiento de obleas, 9% del crecimiento de densidad de DRAM por oblea), después de considerar el impuesto de bits de HBM, el DDR como materia prima tradicional no HBM tendrá un crecimiento de bits de solo alrededor del 20% (aproximadamente 10% de crecimiento de obleas × aproximadamente 9% de mejora de densidad de nodo).

¿Cuál será el impacto de la expansión de ChangXin en China? Si se expande sin piedad, ¿volverá a sumergir este mercado en el atolladero del ciclo?

ChangXin ha estado expandiéndose rápidamente en los últimos años. En 2025, sigue siendo de 200,000 obleas por mes; en 2026, con la contribución de la fábrica de Beijing y las nuevas líneas de producción, alcanzará las 320,000-350,000.

La fábrica de Shanghái, en construcción, tiene una primera fase que se espera que agregue 100,000 obleas por mes para 2027, y una segunda fase que agregará otras 100,000 obleas por mes para 2028. Es decir, en 2027 serán 420,000 obleas por mes, y en 2028 alcanzarán las 500,000 obleas por mes.

Pero hay que tener en cuenta que la densidad de bits de DRAM de ChangXin es solo aproximadamente la mitad de la de los tres grandes. Por lo tanto, los 500,000 obleas por mes de ChangXin producen solo la mitad del volumen de bits de DRAM en comparación con otros. Al calcular las obleas por mes, se considera la mitad equivalente.

Después de aplicar este descuento, el impacto de ChangXin en toda la industria de DRAM sigue siendo mucho menor. Desde finales de 2025 hasta finales de 2028, el impacto de ChangXin en la CAGR de la capacidad de bits de DRAM es solo de aproximadamente el 1.5%, y la CAGR de la capacidad de DRAM de toda la industria pasa de aproximadamente el 12.7% al 14.2%.

· Capacidad mensual de DRAM (kwspm) 2025E → 2028E CAGR · Samsung 685K → 920K 10.3% · SK Hynix 519K → 725K 11.8% · Micron 340K → 560K 18.1% · Otros no China 150K → 218K 13.3% · China (densidad a la mitad) 117K → 274K 32.8% · Total incluyendo China 1811K → 2697K 14.2% · Total sin China 1694K → 2423K 12.7%

Incluso si ChangXin mantiene su ritmo de expansión futura, para 2030, su impacto en la CAGR anual del volumen de bits de DRAM de toda la industria sería de menos del 3%, pasando de una CAGR del 20% al 23%, nada más.

Además, ChangXin está limitado por las máquinas de litografía, y DDR6 requiere velocidades más altas (14400 MT/s como mínimo) y mayor densidad. Los tres grandes probablemente usarán nodos 1c o más avanzados (por debajo de ~12 nm) para DDR6, y ya usan EUV de forma generalizada. ChangXin puede estar limitado en velocidad para DDR6, y la densidad será solo la mitad.

Incluso en un ciclo de crecimiento, ¿por qué este súper ciclo de DRAM durará mucho tiempo, al menos cinco años sin fin a la vista?

La primera razón es el enorme crecimiento de la demanda de DRAM estructural impulsado por el lado de la demanda de servidores CPU que acabamos de discutir. Combinando esto con la CAGR del volumen de bits de la oferta de DRAM, que se mantiene estable alrededor del 20%, se puede ver claramente por qué la brecha de DRAM en los próximos años será cada vez mayor:

La oferta de DRAM tradicional no HBM crece aproximadamente un 20% anual. En cuanto a la demanda, según un TAM de CPU de 60 mil millones en 2026, cada CPU consume un promedio de 8GB/núcleo de DRAM, a $30-35 por núcleo, la demanda es de 16EB.

Para 2030, con un TAM de CPU de 400 mil millones, cada CPU consume un promedio de 16GB/núcleo de DRAM, a $80 por núcleo (la CPU sube más del doble), la demanda es de 80EB. La CAGR de crecimiento de esta parte de DRAM es de aproximadamente el 50%, muy por encima de la estimación actual.

A diferencia de HBM, que está directamente vinculado al token throughput y, por lo tanto, directamente vinculado a la eficiencia de ganancias de la GPU, la falta de DRAM afecta principalmente la velocidad del flujo agente. Por ejemplo, en comparación con 8GB/núcleo, 16GB/núcleo puede reducir la velocidad de algunas cargas de trabajo en un 30%, y algunas tareas de bajo valor pueden esperar si es necesario. El motivo del crecimiento exponencial estructural es fuerte, pero la demanda no es tan rígida como la de GPU.

Semianalysis dice que la brecha de DRAM este año es de un dígito porcentual, y el próximo año superará el 10%. Desde la perspectiva estructural de DRAM causada por el aumento masivo de CPU agente, esta brecha seguirá aumentando cada año, y no se ve posible una reducción antes de 2030.

Otra razón por la que DRAM puede mantener su fortaleza durante mucho tiempo es que, después de que sube el precio de DRAM, la demanda que se elimina por la subida no desaparece realmente, solo se retrasa. El depósito de demanda es demasiado grande.

El llamado depósito se refiere a esa demanda potencial que «se liberaría inmediatamente si baja la memoria». Su existencia significa que incluso si la oferta se pone al día temporalmente, es difícil que los precios se desplomen, porque siempre hay nueva demanda que surge del depósito para tomar el relevo:

La eficiencia de cómputo/velocidad de la memoria es un depósito:

Hay una gran cantidad de demanda que originalmente necesitaba memoria adicional para optimizar la velocidad y el cómputo, pero que se mantiene bajo control cuando la memoria es demasiado cara, y se libera cuando baja.

Por ejemplo, el acelerador CPX de Nvidia para prefill, diseñado originalmente para usar GDDR7 adicional de bajo costo como un acelerador de prefill dedicado, resultó que LPDDR/GDDR son demasiado caros, incluso más caros que HBM antes de la subida de precios, por lo que el ROI de este plan no era rentable. Pero cuando la memoria normal baje de precio, planes de optimización como CPX volverán.

Las tareas de bajo valor son un depósito: cuando la subida de precios de la memoria mantiene altos los precios de los tokens, las tareas de alto valor se priorizan y las de bajo valor se posponen; cuando baja la memoria, estas demandas retrasadas regresan.

La IA en el dispositivo es un depósito: la configuración de memoria de las PC con IA podría pasar de 24GB a 128GB. Apple ya ha exigido que la última versión completa de IA en el dispositivo pase de 8GB a 12GB de memoria.

Los dispositivos electrónicos de consumo convencionales, PC agente, teléfonos de gama baja, toda la demanda reducida por la subida de precios de la memoria son depósitos.

Tantos depósitos apilados forman una almohadilla de amortiguación de demanda extremadamente gruesa. Esta es la razón por la que el crecimiento estructural de DDR en esta ronda tendrá un impulso más fuerte de lo que el mercado imagina.

Otra razón por la que es difícil que el precio de DRAM caiga significativamente es que la capacidad de HBM y DRAM se puede convertir entre sí, por lo que todo el complejo de DRAM se reevalúa juntos.

En el ciclo ascendente, el margen de beneficio de DRAM supera con creces al de HBM, y el aumento de precio de HBM incluso es impulsado por DRAM. El precio de HBM4 recién contratado este año es el precio actual de DRAM × 4, que es el precio correspondiente al número normal de apilamientos para HBM4.

Una vez que DRAM baja de precio y los márgenes disminuyen, debido a la transparencia de los contratos a largo plazo de HBM, los márgenes de beneficio están garantizados. HBM indirectamente absorberá más capacidad de DRAM. La bajada de precio de HBM también dará a los fabricantes de GPU más incentivos para actualizar el tamaño de HBM tanto como sea posible, lo que indirectamente garantiza el piso de precios de DRAM.

La demanda de crecimiento exponencial estructural de DRAM existe, la dificultad de expansión debido a la desaceleración del escalado de densidad aumenta, los planes de expansión de los fabricantes son cautelosos, el impacto de ChangXin en los próximos años es limitado, y además, el depósito de demanda es enorme. Estas cuatro razones hacen que, en un futuro previsible de al menos cinco años o más, sea difícil que DRAM entre en un valle cíclico.

¿Tiene NAND SSD esperanza de liberarse del ciclo tradicional?

El impulso de crecimiento estructural de NAND no es tan fuerte como el de DDR. La escasez de este año se debe principalmente a que los principales actores mantienen una buena disciplina de producción y no han expandido la capacidad a gran escala. El aumento anual de capacidad proviene principalmente de mejoras tecnológicas: el aumento del número de capas apiladas de NAND.

El primer crecimiento estructural proviene de la IA, principalmente de la descarga de KV cache, donde el KV cache cálido/frío que excede la capacidad de HBM se descarga en NAND SSD.

Pero lo sorprendente es que este crecimiento de descarga de KV cache ni siquiera ha ocurrido a gran escala, y los SSD ya están más escasos que DRAM, y los aumentos de precio son mayores. Cuando Rubin CMX se lance el próximo año, junto con la aplicación a gran escala de la descarga de KV cache, la escasez de SSD también aumentará debido a este crecimiento estructural.

Segundo, otro aumento estructural mencionado en el resumen del año pasado, el video de IA que se espera en el futuro, ya está emergiendo este año.

Seedance está creciendo a un ritmo de diez a cuarenta veces al año. Actualmente, todavía está atascado en una etapa de falta de capacidad de cómputo, y la demanda está reprimida por la potencia de cómputo. Pero cuando pase la fase de falta de tarjetas, el crecimiento de la demanda estructural de almacenamiento NAND para video de IA durará bastante tiempo.

El tercer crecimiento estructural también proviene del aumento exponencial en el uso de Sandbox debido al flujo agente. Sandbox, para garantizar la seguridad y el aislamiento de los datos, como en Analytical Agent, necesita replicar grandes cantidades de bases de datos y contexto de usuario para cada tarea, lo que provoca un grave desperdicio de memoria (DRAM) y núcleos de CPU, y también generará una gran cantidad de desperdicio (demanda) de SSD.

El cuarto crecimiento estructural, que quizás entre en juego después de 2030, proviene de la ruta HBF que necesita SSD, y es muy esperado en muchos análisis de bancos de inversión. Pero esta ruta tecnológica aún está lejana; su papel principal solo puede ser almacenar los pesos de los modelos grandes, escribir los pesos una vez y luego ser solo lectura, y debe estar empaquetada con GPU/HBM (48TBps/96TBps), de lo contrario, debido a que PCIE7/8 es demasiado lento, no se puede usar. Solo se puede decir que es prometedor. El próximo artículo «Proyección del final del juego de los semiconductores de IA 2026 (III)» tendrá un análisis más detallado.

En resumen, el crecimiento estructural de NAND SSD no es tan fuerte como el de HBM, pero su ventaja es que es barato. Hasta 2027, el precio será de solo $0.8/GB, una cuadragésima parte del DRAM del mismo período. Por lo tanto, también tiene la propiedad de ser un todoterreno en la jerarquía de múltiples cachés, con fuentes de crecimiento estructural demasiado amplias.

Es decir, no existe una situación en la que DRAM/HBM suba de precio y prospere solo, mientras que SSD no suba. Porque si ocurriera tal situación, todos buscarían usar SSD para asumir parte de las funciones de DRAM/HBM, logrando efectos similares a un costo menor. HBM, DRAM y NAND no son tres historias independientes, sino el crecimiento estructural del mismo jerarquía de memoria de IA en diferentes temperaturas.

Con la demanda de crecimiento exponencial estructural, ¿se ha liberado NAND SSD del ciclo? Entonces hay que observar la disciplina de producción de los fabricantes de NAND SSD. El único que podría no cumplir con la disciplina de producción es YMTC (Yangtze Memory Technologies). Después de todo, este es un dilema del prisionero; una vez que un fabricante se expande sin piedad, la expansión de toda la industria NAND es mucho más fácil que la de DRAM.

Pero como mínimo, esta ronda también es un súper ciclo para NAND. Las demandas traídas por varios crecimientos estructurales exponenciales probablemente retrasarán la fase descendente hasta 2030 sin problemas.

Enlace original

Haga clic para conocer los puestos de trabajo en BlockBeats.

Bienvenido a unirse a la comunidad oficial de BlockBeats:

Grupo de suscripción de Telegram: https://t.me/theblockbeats

Grupo de discusión de Telegram: https://t.me/BlockBeats_App

Cuenta oficial de Twitter: https://twitter.com/BlockBeatsAsia

Ver original
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios