Cenário final dos semicondutores de IA: a escassez continuará por pelo menos mais cinco anos?

Título original: "Simulação do Fim dos Semicondutores de IA 2026(II)"
Autor original: fin, analista de IA

Quando a evolução estrutural dos semicondutores chega ao eixo principal da inferência de IA, a memória e o armazenamento tornam-se os maiores gargalos. A maior dúvida do mercado sobre memória e armazenamento é:

HBM/DRAM/SSD conseguirão se livrar da ciclicidade tradicional?

A evolução da arquitetura GPU, que depende do crescimento exponencial do HBM, irá parar? Quando?

Qual será o impacto da expansão da produção da ChangXin? Isso trará o mercado de volta ao atoleiro cíclico?

Este artigo tenta estabelecer um framework para organizar essas questões.

Tudo tem ciclos, e o ciclo da memória é particularmente forte. A maior fonte disso é o tempo excessivamente longo de expansão da produção, que não consegue acompanhar rapidamente a demanda em períodos de escassez.

Algumas maneiras possíveis de se livrar da ciclicidade tradicional:

  1. Customização: Produtos não intercambiáveis, capacidade de produção não pode ser transferida livremente, necessidade de contratos de longo prazo.
  2. Crescimento estrutural exponencial da demanda: A curva de demanda é muito íngreme, e a oferta nunca consegue acompanhar.
  3. Atualização tecnológica rápida: Cada geração de produtos elimina rapidamente a anterior.

Atender a qualquer um desses critérios já permite se livrar parcialmente do ciclo tradicional; atender a dois ou três permite se livrar da maior parte dele.

De acordo com este framework, o HBM atende a cerca de dois e meio dos três critérios.

1. Customização, necessidade de contratos de longo prazo (mais fraco, conta como meio critério)

O HBM realmente tem componentes de customização e codesign com a Nvidia, mas não é muito forte. A parte realmente customizada está apenas no encapsulamento e no base die. As dezenas de camadas de DRAM die acima ainda são completamente padronizadas pela JEDEC.

Por exemplo, quando o HBM3E da Samsung não passou na qualificação da NVIDIA e sua participação caiu de cerca de 60% para 20%, eles não descartaram essa capacidade de produção como perda; em vez disso, a transferiram para o TPU do Google e para a AMD. Fisicamente, o HBM3E fornecido à NVIDIA e o HBM3E fornecido à AMD são a mesma coisa. Portanto, a capacidade ainda pode ser parcialmente transferida livremente.

Após o HBM4, haverá mais customização, incluindo a integração de lógica customizada e/ou cache no base die. Uma maneira mais complexa é colocar o controlador de memória HBM4E e interfaces die-to-die customizadas diretamente no base die lógico.

A SemiAnalysis mencionou que OpenAI, NVIDIA e AMD estão cada uma trabalhando em HBM customizado, mas isso se refere à customização do base die. As camadas de DRAM acima ainda são padrão.

Devido à característica de customização parcial, o HBM requer cooperação principalmente no encapsulamento, o que leva os clientes a assinarem contratos de longo prazo, mas a capacidade pode de fato ser transferida. Portanto, o HBM mal pode ser considerado como meio critério.

2. Crescimento estrutural exponencial da demanda (atende)

A razão mais intuitiva é que a atualização de hardware do token factory da NVIDIA, visando aumentar o token throughput, leva a uma rápida atualização da largura de banda do HBM e a um crescimento exponencial na demanda por tamanho do HBM.

Este é, na verdade, o resultado do artigo anterior "Simulação do Fim dos Semicondutores de IA 2026(I)":

Token throughput = Tamanho do HBM × Largura de banda do HBM, dobrando a cada geração.

O tamanho do HBM por GPU cresce cerca de 40% ao ano.

A inclinação dessa curva de demanda é difícil de ser acompanhada pelos 14% de crescimento de wafer no lado da oferta de DRAM, multiplicado pelo aumento de 9% na densidade.

No campo do hardware, devido aos altos requisitos de largura de banda e tamanho de memória para KV cache na fase de atenção, o HBM ocupa uma posição única. Mesmo que o preço do HBM triplique ou quintuplique, o aumento marginal no token throughput obtido ao gastar dinheiro em HBM ainda é muito mais vantajoso do que gastar em outros lugares.

Outras rotas de memória, como SRAM, HBF, CXL, PIM, atualmente não conseguem competir frontalmente com o HBM no principal cenário de KV cache/attention. Pelo menos nos próximos 5 anos ou mais, é improvável que encontrem uma rota alternativa.

3. Atualização tecnológica rápida (atende)

A era do DDR3 durou 15 anos e ainda estamos na era do DDR5. Já a atualização do HBM ocorre basicamente a cada dois anos, muito mais rápida que o DDR tradicional, e recentemente mostra uma tendência de aceleração. O tamanho do HBM × largura de banda do HBM dobra a cada geração, seguindo perfeitamente essa regra.

A cada dois anos, uma atualização do HBM, a velocidade da GPU da NV basicamente sobe exponencialmente: 2TB/s -> 3.5TB/s -> 4.8TB/s -> 8TB/s -> 22TB/s. Além disso, a velocidade do HBM é totalmente linear ao token throughput de inferência. O custo marginal de uso do HBM da geração anterior se torna desvantajoso, e todos têm incentivo para usar os produtos mais recentes, mesmo que mais caros, pois o benefício (token throughput) é maior.

A lógica da era do Token Factory é: quanto mais atualização tecnológica (largura de banda do HBM), mais se ganha.

Essa diferença de velocidade cria uma situação semelhante à das CPUs: produtos antigos se desvalorizam rapidamente, reduzindo o valor de estocagem. Por exemplo, o valor do HBM3 se deprecia muito rapidamente; hoje, basicamente, produtos mainstream não o utilizam.

Portanto, a escolha racional dos fabricantes de HBM mudou de competir pela capacidade atual de produção para conquistar mercado (quantity competition), para competir em estabilidade e velocidade do HBM, visando a participação na qualificação da próxima geração na plataforma NVIDIA (quality competition). Isso evita o dilema do prisioneiro no ciclo descendente tradicional, onde ninguém quer reduzir a produção e perder participação de mercado.

Comparado ao DRAM tradicional, o HBM atende a dois e meio dos três critérios. Então, o HBM conseguirá se livrar da ciclicidade tradicional?

A origem da ciclicidade da memória, na narrativa mainstream, é que o DRAM tem uma característica de commodity (sem diferenciação → guerra de preços → estoque acumulável), gerando ciclos.

Mas a característica de commodity em si não produz ciclos; ela é apenas um amplificador de amplitude.

Especialmente no campo do DRAM, já houve um dilema do prisioneiro: no ciclo descendente, a Samsung expandiu a produção para ganhar participação de mercado; quem reduzisse primeiro sairia perdendo, fazendo com que ninguém ousasse reduzir facilmente, resultando em enormes prejuízos para todos.

Na verdade, a principal fonte estrutural da ciclicidade é que o ciclo de oferta é muito longo, facilmente desalinhado com o ciclo de demanda. Construir uma fábrica leva 3 anos, com investimento de dezenas de bilhões de dólares. Uma vez decidido, é irreversível. E o crescimento da demanda é instável. Cada vez que surge um novo paradigma de crescimento, como serviços em nuvem, internet móvel, ou demanda online devido à pandemia, há um crescimento explosivo. Dois anos depois, o crescimento desacelera, a oferta supera a demanda, os preços caem drasticamente e entramos em um ciclo de prejuízo.

Tudo tem ciclos. O HBM também não pode evitar isso. Mas, enquanto a demanda por tokens continuar crescendo exponencialmente, o crescimento estrutural exponencial enfraquecerá a ciclicidade, porque a demanda é mais previsível e, uma vez que os preços caem, os clientes têm a necessidade de aumentar o tamanho do HBM (aumentando o token throughput). Além disso, o HBM exige contratos de longo prazo devido à customização parcial, transformando a ciclicidade em ciclicidade de crescimento. E este ciclo será particularmente longo.

· Ciclicidade: Ganha-se muito no ciclo de alta, perde-se muito no ciclo de baixa. · Ciclicidade de crescimento: Ganha-se muito no ciclo de alta, ganha-se menos no ciclo de baixa.

Além disso, além das três condições para se livrar do ciclo tradicional, o HBM/DRAM tem uma vantagem importante:

4. Devido à desaceleração do scaling de densidade do DRAM e ao aumento das camadas de empilhamento do HBM devido às atualizações, a dificuldade de expandir a produção do lado da oferta continua aumentando.

Por volta do ano 2000, a densidade de bits de DRAM por wafer crescia cerca de 45% ao ano. Ou seja, mesmo sem expandir a quantidade de wafers, a oferta anual de bits de DRAM ainda podia crescer 45%.

Dez anos atrás, o crescimento anual da densidade de bits de DRAM caiu para 20%. Agora, caiu para 9%. Antes, expandir a produção de DRAM nem exigia novas fábricas para obter um aumento de 20-30% no volume de bits ao ano. Agora, expandir a produção de DRAM depende mais do aumento no número de wafers, ou seja, construir novas fábricas e salas limpas.

Outra dificuldade na rápida expansão do HBM é que o HBM3e requer cerca de 3 vezes mais wafers de DRAM, e o HBM4, devido ao aumento da densidade de empilhamento, requer cerca de 4 vezes mais wafers de DRAM. Isso significa que os bits de HBM estão se tornando progressivamente mais difíceis de fabricar em relação aos bits de DRAM. A quantidade de bits de HBM fabricados por wafer de DRAM está diminuindo, representando uma deflação.

No futuro, será que o HBM deixará de ser um ciclo de crescimento para voltar a ser um ciclo tradicional? O fator mais importante é o crescimento estrutural exponencial. Então:

Na era da inferência de IA, a evolução da arquitetura GPU, que depende do crescimento exponencial do HBM, irá parar? Quando?

Token throughput = Tamanho do HBM × Largura de banda do HBM. A razão para o crescimento exponencial do tamanho do HBM, nesse princípio fundamental, é o crescimento do KV cache. As características do KV cache e da Attention se encaixam muito bem com o HBM, fazendo com que o HBM lidere sobre outras rotas tecnológicas, maximizando a utilização do KV cache e da fase de Attention.

Em outras palavras, se o KV cache deixar de existir arquitetonicamente, a lógica de crescimento exponencial do tamanho do HBM também será desafiada.

Portanto, a essência dessa questão é: o mecanismo de Attention representado pelo Transformer e o mecanismo de KV cache derivado dele desaparecerão? Serão substituídos após a maré baixar?

Olhando para as leis históricas: a cada revolução na arquitetura de modelos de IA, as operações primitivas que realmente sobrevivem são aquelas que possuem certa universalidade matemática.

Por exemplo: a FFN (Feedforward Network, ou seja, as muitas camadas MLP no modelo) é um produto da era do deep learning de 2012, mas sobreviveu até hoje nos grandes modelos de linguagem e ainda ocupa uma parcela considerável dos parâmetros do modelo. Por que sobreviveu? Porque também é um teorema de aproximação universal: qualquer MLP suficientemente larga pode aproximar qualquer função contínua.

A Attention provavelmente também será um primitivo que será preservado. Porque resolve um problema igualmente fundamental: o roteamento dinâmico (dynamic routing) entre quaisquer duas posições em uma sequência, permitindo que quaisquer duas posições estabeleçam contato conforme necessário. Uma vez que essa capacidade é comprovadamente eficaz, é difícil descartá-la.

Portanto, mesmo que a arquitetura futura evolua de puro Transformer para uma arquitetura híbrida, ou para um modelo de mundo, a camada de Attention ainda existirá. O KV cache (ou seu equivalente após compressão latente) ainda será necessário. O HBM continuará sendo um dos núcleos da inferência. A evolução da arquitetura GPU, que depende do crescimento exponencial do HBM para o KV cache, não parará.

E o DRAM? Existe a possibilidade de se livrar da ciclicidade tradicional no futuro?

Há um certo consenso no mercado de que o HBM se livrará da ciclicidade, mas o mercado praticamente não tem consenso sobre o DRAM se livrar da ciclicidade.

Voltando ao framework anterior, das três condições para se livrar do ciclo tradicional, o DRAM não possui customização, então só podemos olhar para a velocidade de iteração tecnológica. O mais crucial é ver se há um crescimento estrutural exponencial. A resposta é sim.

No conceito de Token Factory de IA, o crescimento estrutural exponencial é, de fato, principalmente do HBM. Mas as coisas mudaram a partir do final de 2025: com o início da liberação do potencial das CPUs agênticas, a demanda de DRAM associada às CPUs está se tornando uma nova fonte de crescimento estrutural exponencial para o DRAM.

A lógica desse crescimento tem duas camadas: A primeira camada é o rápido crescimento do TAM de servidores CPU. A segunda camada é o rápido crescimento da quantidade de DRAM alocada por core de CPU de servidor devido ao fluxo agêntico.

A rápida expansão do TAM de servidores CPU tem 4 lógicas detalhadas no artigo especial sobre CPU de abril. Resumidamente:

  1. A proporção de CPU para GPU em clusters de aceleradores de IA mudou de 1:4 tradicional para 1:2, e pode até chegar a 1:1.
  2. No fluxo agêntico, a latência do processamento da CPU é muito alta, representando 50-90% do tempo, tornando-se um gargalo importante que requer expansão simultânea.
  3. A codificação com IA aumentou significativamente a eficiência dos SDEs, com a quantidade de código crescendo em ordens de magnitude e as chamadas de API de software crescendo exponencialmente, convertendo-se diretamente em um aumento exponencial dessas horas de CPU.
  4. Os Sandboxes, para garantir a segurança e o isolamento dos dados, como o Analytical Agent, precisam copiar grandes quantidades de bancos de dados e contexto do usuário para cada tarefa, causando um enorme desperdício de memória (DRAM) e núcleos de CPU. Esse problema de desperdício não pode ser resolvido por pelo menos 5 anos ou mais. Além disso, as horas de CPU são tecnicamente difíceis de serem reduzidas por meio de otimizações.

É por isso que, no trimestre retrasado, o relatório de resultados da AMD disse que o TAM de CPU chegaria a 60B até 2030. Dois meses atrás, a AMD/ARM dobrou a previsão do TAM de CPU para 2030 para 120B. Um mês atrás, a Nvidia dobrou novamente a previsão do TAM de CPU para 2030 para 200B.

E na semana passada, a Bernstein aumentou novamente a orientação do TAM de CPU para 2030 para 223B. Na minha opinião, não há muita dúvida de que o TAM de CPU para 2031 será revisado para cima para 400B no futuro. A única dúvida é quando os gigantes anunciarão essa revisão para cima.

Segunda camada: Por que a quantidade de DRAM alocada por core de CPU de servidor está crescendo rapidamente na era agêntica?

  1. Agentes são processos de longa duração com estado, não requisição-resposta sem estado.

Web/SaaS tradicionais são stateless: a requisição entra, aloca memória, processa e libera a memória imediatamente. Já uma tarefa de agente pode durar de um minuto a uma hora. Durante todo esse tempo, seu histórico de mensagens, system prompt, memória de trabalho, memória de longo prazo e buffer de resultados de ferramentas ficam permanentemente na DRAM.

Assim como as horas de CPU, a pegada de memória de cada tarefa, devido aos requisitos de stateful e isolamento de sandbox (cada tarefa copia banco de dados e contexto), é tecnicamente difícil de comprimir.

  1. A janela de contexto está crescendo exponencialmente, e o conjunto de trabalho de cada sessão se expande. A concorrência × a pegada de memória por sessão é um multiplicador amplificador.

A janela de contexto passou de 32K → 256K → 1M, e o comprimento das sequências de reasoning / test-time compute explodiu. No futuro, continuará aumentando. As mensagens residentes de cada sessão ativa crescem linearmente com o comprimento do contexto.

Agora, multiplique as duas camadas.

Primeira camada: O TAM de servidores CPU, olhando para 2030-2031, é da ordem de 5 a 7 vezes (60B → 120B → 200B → 223B, e acredito que chegará a 400B).

Segunda camada: A proporção de DRAM por CPU, cerca de 3 a 4 vezes (4~8GB → 16~32 GB/core), mas esse crescimento pode ser, em grande parte, um ganho único.

Multiplicando duas variáveis independentes, a demanda de DRAM do lado do servidor é um crescimento de ordens de magnitude.

Em 2030, mesmo sob uma estimativa conservadora de 300B de TAM de CPU, considerando um CPU core a $50 e, na era agêntica, o mínimo de 16GB/core, isso resulta em pelo menos 96EB de novo incremento. A produção total de DRAM deste ano é de apenas 47EB, e no próximo ano, mal chega a 60EB. Isso é um incremento impressionante.

Embora esse crescimento exponencial do DRAM devido à CPU agêntica seja, em grande parte, um ganho único na segunda camada, ele durará por muito, muito tempo, porque a lacuna de escassez é enorme.

Voltando ao framework do início do artigo. Das três condições para se livrar do ciclo tradicional, a primeira (customização do DRAM) pode ser basicamente ignorada.

A segunda condição: uma fonte de demanda estruturalmente exponencial e difícil de reverter é válida. O DRAM commodity agora também tem a qualificação para se livrar parcialmente da ciclicidade tradicional. Não é tão completo quanto o HBM (dois e meio), mas já é uma mudança substancial.

Terceira condição: velocidade de iteração tecnológica. O ritmo do DRAM também mudou em relação ao passado.

Antes, a velocidade de iteração tecnológica do DRAM dependia fortemente da eletrônica de consumo. A melhoria do DDR tinha pouco impacto no desempenho. Mas, no futuro previsível, o DRAM tradicional de consumo baseado em carbono será muito menor que o DRAM de consumo baseado em silício (servidores CPU).

Antes, o aumento marginal de velocidade do DRAM era muito baixo. Agora, devido ao aumento da demanda por memória em servidores CPU e aos requisitos de velocidade do DDR para IA no dispositivo (por exemplo, a Apple, para rodar modelos grandes localmente, exige LPDDR cada vez mais rápido), o aumento marginal da velocidade é muito maior.

Portanto, a demanda por iteração de velocidade do DDR6 e LPDDR6 aumentou enormemente em comparação com o passado. Isso também pode ser visto no gráfico: o tempo de iteração do LPDDR6/DDR6 encurtou e a inclinação da velocidade começou a subir novamente.

Antes, quando uma nova geração de tecnologia DDR/LPDDR era lançada, a reação era fria; as pessoas esperavam a queda de preço para usar.

Agora, com o lançamento do LPDDR6, todos estão disputando para adotá-lo o mais cedo possível, porque o ganho de desempenho proporcionado pelo aumento de velocidade é imediatamente perceptível.

Além disso, a oferta de DDR ainda é tributada adicionalmente pelo HBM. A taxa de expansão anual do HBM é tão rápida que, a cada ano, um lote de wafers que poderiam ser usados para DDR commodity é desviado para o HBM. E a taxa de conversão do HBM é extremamente baixa: o HBM3E requer cerca de 3 wafers de DDR para produzir a mesma quantidade de bits; o HBM4 requer 4 wafers. Portanto, cerca de 3% a 5% do crescimento anual de bits de DDR é consumido diretamente por esse "imposto de bits do HBM".

Assim, embora o volume de bits de DRAM possa crescer cerca de 24% ao ano no futuro (14% do crescimento de wafer, 9% do aumento de densidade de DRAM por wafer), após considerar o imposto de bits do HBM, o DDR commodity tradicional, não-HBM, tem um crescimento anual de bits de apenas cerca de 20% (cerca de 10% de crescimento de wafer × cerca de 9% de aumento de densidade de nó).

Qual é o impacto da expansão da produção da ChangXin (CXMT) na China? Se eles expandirem agressivamente, sem seguir as regras, isso trará o mercado de volta ao atoleiro cíclico?

A ChangXin tem expandido rapidamente nos últimos anos. Em 2025, ainda está em 200.000 wafers por mês. Em 2026, com a contribuição da fábrica de Pequim e novas linhas de produção, chegará a 320.000 a 350.000 wafers por mês.

A fábrica de Xangai, em construção, terá duas fases: a primeira fase deve adicionar 100.000 wafers por mês até 2027; a segunda fase deve adicionar 100.000 wafers por mês até 2028. Ou seja, em 2027, serão 420.000 wafers por mês; em 2028, 500.000 wafers por mês.

No entanto, é importante notar que a densidade de bits de DRAM da ChangXin é apenas cerca da metade das três gigantes (Samsung, SK Hynix, Micron). Portanto, os 500.000 wafers por mês da ChangXin produzem apenas metade do volume de bits de DRAM das outras empresas. Ao calcular wafers por mês, deve-se considerar o equivalente a metade.

Com esse desconto, o impacto da ChangXin em toda a indústria de DRAM é muito menor. Do final de 2025 ao final de 2028, o impacto da ChangXin no CAGR da capacidade de bits de DRAM é de apenas cerca de 1,5%. O CAGR da capacidade de DRAM de toda a indústria aumentaria de cerca de 12,7% para 14,2%.

· Capacidade mensal de DRAM (kwspm) 2025E → 2028E CAGR · Samsung 685K → 920K 10,3% · SK Hynix 519K → 725K 11,8% · Micron 340K → 560K 18,1% · Outros (não-China) 150K → 218K 13,3% · China (densidade pela metade) 117K → 274K 32,8% · Total incluindo China 1811K → 2697K 14,2% · Total sem China 1694K → 2423K 12,7%

Mesmo que a ChangXin mantenha a velocidade de expansão no futuro, o impacto no CAGR anual de volume de bits de DRAM equivalente de toda a indústria até 2030 provavelmente será inferior a 3%, passando de 20% CAGR para 23% CAGR, apenas isso.

Além disso, a ChangXin é limitada por máquinas de litografia. O DDR6 requer taxas mais altas (a partir de 14400 MT/s) e maior densidade. As três gigantes provavelmente usarão nós 1c ou mais avançados (abaixo de ~12nm) para DDR6, já usando amplamente EUV. A ChangXin pode ter limitações de taxa no DDR6 e sua densidade será apenas metade.

Mesmo sendo um ciclo de crescimento, por que este superciclo do DRAM durará muito tempo, pelo menos cinco anos, sem fim à vista?

A primeira razão é o enorme crescimento da demanda por servidores CPU discutido anteriormente, que traz um crescimento estrutural exponencial da demanda por DRAM. Combinando isso com o CAGR do volume de bits do lado da oferta de DRAM, que fica estável em torno de 20%, podemos ver claramente por que a lacuna de DRAM continuará aumentando nos próximos anos:

O lado da oferta de DRAM tradicional não-HBM cresce cerca de 20% ao ano. O lado da demanda, considerando 60B de TAM de CPU em 2026, com cada CPU consumindo em média 8GB/core e cada core a $30-35, a demanda é de 16EB.

Em 2030, considerando 400B de TAM de CPU, cada CPU consumindo em média 16GB/core e cada core a $80 (CPU mais que dobrou de preço), a demanda é de 80EB. O CAGR desse crescimento de DRAM é de cerca de 50%, muito acima das estimativas atuais.

Diferente do HBM, que está diretamente vinculado ao token throughput e, portanto, à eficiência de lucro da GPU, a falta de DRAM afeta principalmente a velocidade dos fluxos agênticos. Por exemplo, comparando 8GB/core com 16GB/core, a velocidade de algumas cargas de trabalho pode cair 30%. Tarefas de baixo valor podem esperar. O incentivo ao crescimento estrutural exponencial é forte, mas a demanda não é tão rígida quanto a da GPU.

A SemiAnalysis disse que a lacuna de DRAM este ano é de um dígito percentual, e no próximo ano será superior a 10%. Considerando o crescimento estrutural do DRAM devido ao aumento no número de CPUs agênticas, essa lacuna continuará aumentando a cada ano, sem possibilidade de redução antes de 2030.

Outra lógica para o DRAM permanecer forte por muito tempo é que, após o aumento do preço do DRAM, a demanda eliminada pelo aumento não desaparece realmente; ela é apenas adiada. O reservatório de demanda é muito grande.

O chamado "reservatório" refere-se à demanda potencial que seria imediatamente liberada assim que a memória baixasse de preço. Sua existência significa que, mesmo que a oferta acompanhe temporariamente, é difícil que o preço desabe, porque sempre haverá nova demanda saindo do reservatório para absorver a oferta:

A relação capacidade de computação/velocidade da memória é um reservatório:

Há uma grande quantidade de demanda que tecnicamente precisaria de memória extra para otimizar velocidade e computação, mas que é reprimida quando a memória está muito cara. Assim que a memória baixa, essa demanda é liberada.

Por exemplo, a aceleração CPX da Nvidia para prefill, que originalmente foi projetada para usar GDDR7 adicional de baixo custo como um acelerador de prefill dedicado, mas o LPDDR/GDDR ficaram muito caros, mais caros que o HBM antes do aumento. O ROI desse esquema não valia a pena. Mas, quando a memória comum baixar, esquemas de otimização como o CPX voltarão.

Tarefas de baixo valor são um reservatório: Quando o aumento da memória mantém o preço dos tokens alto, tarefas de alto valor são priorizadas e as de baixo valor são adiadas. Quando a memória baixa, a demanda adiada retorna.

IA no dispositivo é um reservatório: A configuração de memória de PCs com IA pode aumentar de 24GB para 128GB. A Apple já exigiu explicitamente que a versão completa da IA no dispositivo mais recente passasse de 8GB para 12GB de memória.

A demanda reduzida devido ao aumento da memória em eletrônicos de consumo convencionais, PCs agênticos e smartphones de baixo custo são todos reservatórios.

Todos esses reservatórios juntos formam um colchão de demanda muito espesso. É por isso que o crescimento estrutural do DDR nesta rodada terá um impulso mais forte do que o mercado imagina.

Outra razão pela qual é difícil que o preço do DRAM caia significativamente é que a capacidade de produção de HBM e DRAM pode ser convertida entre si, então todo o complexo de DRAM é reavaliado em conjunto.

No ciclo de alta, a margem de lucro do DRAM supera em muito a do HBM. A magnitude do aumento de preço do HBM é até impulsionada pelo DRAM. O preço do HBM4 recém-contratado este ano é o preço do DRAM atual × 4, ou seja, o preço correspondente ao múltiplo de empilhamento normal para HBM4.

Assim que o DRAM baixar de preço e a margem bruta cair, devido à transparência dos contratos de longo prazo do HBM, a margem de lucro é garantida. O HBM indiretamente drenará mais capacidade de DRAM. A redução de preço do HBM também incentivará os fabricantes de GPU a atualizar o tamanho do HBM sempre que possível, garantindo indiretamente o piso de preço do DRAM.

Com a demanda estrutural exponencial do DRAM, a desaceleração do scaling de densidade aumentando a dificuldade de expansão, os planos de expansão dos fabricantes sendo muito cautelosos, o impacto limitado da ChangXin nos próximos anos e o enorme reservatório de demanda, essas quatro razões fazem com que, no futuro previsível, de pelo menos cinco anos ou mais, seja muito difícil para o DRAM entrar em um vale de ciclo.

O NAND SSD tem esperança de se livrar da ciclicidade tradicional?

O impulso de crescimento estrutural do NAND não é tão forte quanto o do DDR. A escassez deste ano se deve principalmente ao fato de que os principais players mantiveram uma boa disciplina de produção, sem expansão em larga escala. O aumento anual de capacidade vem principalmente de melhorias tecnológicas: aumento no número de camadas de empilhamento do NAND.

O primeiro crescimento estrutural vem da IA, principalmente do descarregamento (offloading) do KV cache, transferindo o KV cache morno/frio que transborda do HBM para o NAND SSD.

Mas o surpreendente é que esse crescimento do offloading do KV cache ainda nem ocorreu em larga escala, e o SSD já está mais escasso que o DRAM, com aumento de preço também maior que o do DRAM. Quando o Rubin CMX da NVIDIA começar a ser produzido em volume no próximo ano, combinado com a aplicação em larga escala do offloading do KV cache, a escassez de SSD também aumentará devido a esse crescimento estrutural.

Segundo, outro crescimento estrutural mencionado no resumo do ano passado, o vídeo de IA, que é promissor para o futuro, já está ganhando destaque este ano.

O Seedance está crescendo a uma taxa de 10 a 40 vezes ao ano. Atualmente, está preso na falta de poder computacional (GPUs), com a demanda reprimida. Mas, quando a fase de escassez de GPUs passar, o crescimento estrutural da demanda por armazenamento NAND devido ao vídeo de IA continuará por um bom tempo.

Terceiro, outro crescimento estrutural também vem do crescimento exponencial no uso de Sandboxes devido aos fluxos agênticos. Os Sandboxes, para garantir a segurança e o isolamento dos dados, como o Analytical Agent, precisam copiar grandes quantidades de bancos de dados e contexto do usuário para cada tarefa, causando um enorme desperdício de memória (DRAM) e núcleos de CPU, e também trará um enorme desperdício (demanda) de SSD.

Quarto, talvez um crescimento estrutural que entre em ação após 2030 venha da rota HBF, que requer o uso de SSD, e é muito promissora em muitas análises de bancos de investimento. No entanto, essa rota tecnológica ainda está distante, com o papel principal sendo apenas armazenar os pesos de grandes modelos, escrevendo os pesos uma vez e depois sendo somente leitura, e precisa ser encapsulada junto com a GPU/HBM (48TBps/96TBps), caso contrário, através de PCIE7/8, a velocidade é muito lenta para ser utilizável. Só podemos dizer que é promissor para o futuro. Uma análise mais detalhada será feita no próximo artigo "Simulação do Fim dos Semicondutores de IA 2026(III)".

Em resumo, o crescimento estrutural do NAND SSD não é tão forte quanto o do HBM, mas tem a vantagem de ser barato. O preço até 2027 será de apenas $0,8/GB, um quadragésimo do DRAM no mesmo período. Portanto, é uma espécie de "coringa" na hierarquia de cache. As fontes de crescimento estrutural são muito amplas.

Ou seja, não existe a situação em que DRAM/HBM sobem de preço isoladamente enquanto o SSD não sobe. Porque, se isso acontecesse, todos encontrariam maneiras de usar SSD para assumir parte das funções do DRAM/HBM, alcançando efeitos semelhantes a um custo menor. HBM, DRAM e NAND não são três histórias independentes, mas sim o crescimento estrutural da mesma hierarquia de memória de IA em diferentes camadas de temperatura.

Com a demanda de crescimento estrutural exponencial, o NAND SSD se livrou do ciclo? Então, precisamos olhar para a disciplina de produção dos fabricantes de NAND SSD. O único que pode não cumprir a disciplina de produção é a YMTC (Yangtze Memory Technologies). Afinal, é um dilema do prisioneiro. Se um dos players expandir agressivamente, sem seguir as regras, a dificuldade de expandir a produção de toda a indústria de NAND é muito mais simples que a do DRAM.

Mas, no mínimo, este ciclo do NAND também é um superciclo. A demanda trazida por vários crescimentos estruturais exponenciais torna o adiamento do ciclo descendente para 2030 um problema pequeno.

Link original

Clique para saber sobre as vagas de emprego na BlockBeats

Bem-vindo a se juntar à comunidade oficial da BlockBeats:

Canal de inscrição no Telegram: https://t.me/theblockbeats

Grupo de discussão no Telegram: https://t.me/BlockBeats_App

Conta oficial no Twitter: https://twitter.com/BlockBeatsAsia

Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários