Projeção final dos semicondutores de IA: a lacuna durará pelo menos mais cinco anos?

Título original: "Previsão do Fim dos Semicondutores de IA 2026 (II)" Autor original: fin, Analista de IA

Quando a evolução estrutural dos semicondutores chega ao eixo principal da inferência de IA, a memória e o armazenamento tornam-se o maior gargalo. A maior dúvida do mercado sobre memória e armazenamento é:

Será que HBM/DRAM/SSD se libertarão da cíclica tradicional?

A evolução da arquitetura GPU que depende do crescimento exponencial do HBM irá parar? Quando irá parar?

Qual é o impacto da expansão da produção da CXMT? Irá arrastar este mercado de volta para o atoleiro cíclico?

Este artigo tenta estabelecer um quadro para analisar estas questões

Tudo é cíclico, e a memória é particularmente cíclica. A maior fonte disso é o ciclo de expansão da produção muito longo, a incapacidade de expandir rapidamente a produção e o desfasamento com períodos de escassez de procura.

Algumas formas possíveis de se libertar da cíclica tradicional:

  1. Personalização: Os produtos não são intercambiáveis, a capacidade de produção não pode ser transferida arbitrariamente e são necessários contratos de longo prazo.

  2. Crescimento estrutural exponencial da procura: A própria curva da procura é muito íngreme e a oferta nunca consegue acompanhar.

  3. Atualização rápida da iteração tecnológica: Cada nova geração descarta rapidamente a anterior.

Cumprir qualquer um destes pontos permite libertar-se parcialmente do ciclo tradicional; cumprir dois ou três permite libertar-se da maior parte do ciclo tradicional.

De acordo com este quadro, o HBM cumpre cerca de dois pontos e meio destes três.

  1. Personalização, necessidade de contratos de longo prazo (fraco, conta como meio ponto) ====================

O HBM tem, de facto, algum grau de personalização e codesign com a Nvidia, mas não é muito forte. A parte verdadeiramente personalizada está apenas na embalagem e no base die; as camadas superiores de DRAM die continuam a ser totalmente padronizadas pela JEDEC.

Por exemplo, quando o HBM3E da Samsung não passou na qualificação da NVIDIA e a sua quota caiu de cerca de 60% para 20%, esta não ficou com essa capacidade de produção encalhada e inutilizável; em vez disso, transferiu-a para o TPU do Google e para a AMD. Fisicamente, o HBM3E para a NVIDIA e o HBM3E para a AMD são a mesma coisa. Portanto, a capacidade de produção ainda é parcialmente livremente transferível.

Após o HBM4, haverá mais personalização, incluindo a integração de lógica personalizada e/ou cache no base die. Uma forma mais complexa é colocar o controlador de memória HBM4E e a interface die-to-die personalizada diretamente no base die lógico.

A SemiAnalysis mencionou que a OpenAI, a NVIDIA e a AMD estão cada uma a trabalhar em HBM personalizado, mas isto refere-se à personalização do base die; as camadas DRAM acima continuam a ser padrão.

Devido à característica de personalização parcial, o HBM precisa de cooperação principalmente na embalagem, o que também leva os clientes a terem de assinar contratos de longo prazo, mas a capacidade de produção pode, de facto, ser transferida, por isso o HBM pode ser considerado como cumprindo meio ponto.

  1. Crescimento estrutural exponencial da procura (cumprido) =================

A razão mais intuitiva é que a necessidade de atualização de hardware do token factory da Nvidia para aumentar o token throughput levou a uma rápida atualização da largura de banda do HBM e a um crescimento exponencial da procura de tamanho do HBM.

Este ponto é, na verdade, a conclusão do artigo anterior "Previsão do Fim dos Semicondutores de IA 2026 (I)":

token throughput = tamanho HBM × largura de banda HBM, duplicando a cada geração.

O tamanho HBM por GPU cresce cerca de 40% ou mais por ano.

A inclinação desta curva de procura é algo que o lado da oferta de DRAM, com um crescimento de wafer de 14% e um aumento de densidade de 9%, dificilmente consegue acompanhar.

No domínio do hardware, os requisitos de largura de banda extremamente alta e tamanho de memória extremamente grande da KV cache na fase de atenção também levaram ao estatuto único do HBM. Mesmo que o preço do HBM triplique ou quintuplique, o ganho marginal no token throughput ao gastar dinheiro em HBM ainda é muito mais rentável do que gastar noutros sítios.

Outras vias de memória, como SRAM, HBF, CXL, PIM, atualmente não conseguem competir diretamente com o HBM na sua via principal de KV cache/attention, e é improvável que encontrem uma alternativa nos próximos 5 anos ou mais.

  1. Atualização rápida da iteração tecnológica (cumprido) ===============

A era do DDR3 durou 15 anos e ainda estamos apenas na era do DDR5, enquanto a velocidade de atualização do HBM é basicamente de dois anos por geração, muito mais rápida do que o DDR tradicional, e recentemente tem mostrado uma tendência de aceleração. O tamanho HBM × largura de banda HBM duplica a cada geração, o que atualmente está totalmente de acordo com esta regra.

A cada dois anos, com a atualização do HBM, a velocidade da GPU NV aumenta basicamente de forma exponencial: 2TB/s -> 3.5TB/s -> 4.8TB/s -> 8TB/s -> 22TB/s, e a velocidade do HBM é diretamente proporcional ao token throughput de inferência. O custo marginal de utilização da geração anterior de HBM torna-se pouco vantajoso, e todos têm incentivo para usar os produtos mais recentes, pois, embora mais caros, trazem mais benefícios (token throughput).

A lógica da era do token factory é: quanto mais atualização tecnológica (largura de banda HBM), mais se ganha.

Esta diferença de velocidade cria uma situação semelhante à das CPUs: os produtos antigos desvalorizam rapidamente, diminuindo o valor de acumular stock. Por exemplo, o valor do HBM3 desvalorizou muito rapidamente; hoje em dia, basicamente não é utilizado em produtos mainstream.

Portanto, a escolha racional dos fabricantes de HBM passou de competir pela capacidade atual de produção para ocupar quota de mercado (Quantity Competition) para competir em estabilidade e velocidade HBM, e na quota de qualificação na plataforma da próxima geração da NVIDIA (Quality Competition), evitando assim o dilema do prisioneiro no ciclo descendente tradicional, onde todos relutam em reduzir a produção para não perder quota de mercado.

Comparando HBM e DRAM tradicional, cumpre dois pontos e meio dos três critérios. Então, o HBM consegue libertar-se da cíclica tradicional?

A origem da cíclica da memória, na narrativa mainstream, é que a DRAM tem uma natureza de commodity (indiferenciada → guerra de preços → stock acumulável), daí ser cíclica.

Mas a natureza de commodity por si só não gera o ciclo; é apenas um amplificador de amplitude.

Especialmente no campo da DRAM, já existiu o dilema do prisioneiro: no ciclo descendente, a Samsung expandiu a produção para ganhar quota de mercado; quem reduzisse a produção primeiro saía a perder, levando ninguém a ousar reduzir facilmente, resultando em perdas severas para todos.

Na verdade, a principal fonte estrutural da cíclica é que o ciclo de oferta é demasiado longo, sendo fácil desalinhar com o ciclo da procura. Construir uma fábrica leva 3 anos e requer dezenas de milhares de milhões de dólares de investimento; uma vez decidido, é irreversível, enquanto o crescimento da procura é instável. Cada vez que surge um novo paradigma de crescimento, como serviços cloud, telemóveis com internet móvel ou procura online na pandemia, há um crescimento explosivo. Após dois anos, o crescimento abranda, a oferta excede a procura e os preços caem abruptamente, resultando num ciclo de perdas.

Tudo é cíclico, e o HBM não pode escapar a isto. No entanto, enquanto a procura de tokens continuar a crescer exponencialmente, o crescimento estrutural exponencial irá atenuar a ciclicidade, porque a previsibilidade da procura é maior. Além disso, quando os preços caem, os clientes têm procura por aumentar o tamanho do HBM (aumentando assim o token throughput). Juntamente com o facto de o HBM ter alguns requisitos de personalização que levam a contratos de longo prazo, isto transforma a ciclicidade num ciclo de crescimento, e este ciclo será particularmente longo.

· Ciclicidade: Ganha-se muito no ciclo ascendente, perde-se muito no ciclo descendente. · Ciclicidade de crescimento: Ganha-se muito no ciclo ascendente, ganha-se menos no ciclo descendente.

Além disso, com base nestes três critérios para se libertar do ciclo tradicional, o HBM/DRAM ainda tem uma vantagem importante:

  1. Devido ao abrandamento do scaling da densidade da DRAM e ao aumento das camadas empilhadas devido às atualizações do HBM, a dificuldade de expansão da produção do lado da oferta está a aumentar continuamente. ====================================================================

Por volta do ano 2000, a densidade de bits DRAM por wafer crescia cerca de 45% ao ano. Ou seja, mesmo sem aumentar o número de wafers, o volume de bits DRAM do lado da oferta ainda podia crescer 45% ao ano.

Há dez anos, o crescimento anual da densidade de bits DRAM caiu para 20%. Agora, caiu para 9%. Antigamente, para expandir a produção de DRAM, mal era preciso construir novas fábricas para obter um aumento anual de 20-30% no volume de bits. Agora, para expandir a produção de DRAM, depende-se mais do aumento do número de wafers, ou seja, da construção de novas fábricas e salas limpas.

Outra dificuldade na rápida expansão do HBM é que o HBM3e requer cerca de 3 vezes mais wafers de DRAM, e o HBM4, devido ao aumento da densidade de empilhamento, requer cerca de 4 vezes mais wafers de DRAM. Isto significa que, em relação aos bits DRAM, os bits HBM tornam-se cada vez mais difíceis de fabricar; o número de bits HBM produzidos por wafer DRAM está a diminuir, o que equivale a uma deflação.

No futuro, o HBM poderá algum dia passar de um ciclo de crescimento para um ciclo tradicional? O fator mais importante é o crescimento estrutural exponencial. Então,

Na era da inferência de IA, esta evolução da arquitetura GPU que depende do crescimento exponencial do HBM irá parar? Quando irá parar?

token throughput = tamanho HBM × largura de banda HBM. A razão para o crescimento do tamanho HBM nesta lei fundamental do crescimento exponencial do HBM é precisamente o crescimento da KV cache. As características da KVCache e da Atenção também são muito adequadas ao HBM. Isto até faz com que o HBM lidere em relação a outras rotas tecnológicas, maximizando a utilização das fases de KVCache e Atenção.

Por outras palavras, se a KV cache deixar de existir a nível arquitetural, a lógica de crescimento exponencial do tamanho HBM também será desafiada.

Portanto, a essência desta questão é: este mecanismo de atenção representado pelo Transformer e o mecanismo de KV cache dele derivado desaparecerão? Serão substituídos após a recessão?

Olhando para os padrões históricos: em cada revolução arquitetural de modelos de IA, o que realmente é preservado são as operações primitivas que possuem algum tipo de universalidade matemática.

Por exemplo: a FFN (Feedforward Network, ou seja, as inúmeras camadas MLP nos modelos) é um produto da era do deep learning de 2012, mas sobreviveu até hoje nos grandes modelos de linguagem e ainda ocupa uma parte considerável dos parâmetros do modelo. Porque sobreviveu? Porque também segue o Teorema da Aproximação Universal: qualquer MLP suficientemente larga pode aproximar qualquer função contínua.

A Atenção é, muito provavelmente, outro primitivo que será preservado. Porque resolve um problema igualmente fundamental: o roteamento dinâmico (Dynamic Routing) entre quaisquer duas posições numa sequência, permitindo que quaisquer duas posições numa sequência estabeleçam uma ligação conforme necessário. Uma vez que esta capacidade se mostre eficaz, é difícil descartá-la.

Portanto, mesmo que a arquitetura futura evolua de puro Transformer para uma arquitetura híbrida, ou para modelos de mundo, as camadas de atenção continuarão a existir, a KV cache (ou o seu equivalente após compressão latente) continuará a ser necessária, e o HBM continuará a ser um dos núcleos da inferência. Esta evolução da arquitetura GPU que depende do crescimento exponencial do HBM para a KV cache não irá parar.

Então, e a DRAM? Há alguma possibilidade de se libertar da cíclica tradicional no futuro?

Há algum consenso no mercado sobre o HBM se libertar da ciclicidade, mas para a DRAM, atualmente não há praticamente nenhum consenso.

Voltando ao quadro anterior, dos três critérios para se libertar do ciclo tradicional, a DRAM não tem personalização, por isso só podemos olhar para a velocidade de iteração tecnológica. O mais crucial é ver se há um crescimento estrutural exponencial. A resposta é sim.

No conceito de AI token factory, o crescimento estrutural exponencial é, de facto, principalmente para o HBM. Mas as coisas começaram a mudar a partir do final de 2025: com a libertação do potencial das CPUs agenticas, a procura de DRAM associada às CPUs está a tornar-se uma nova fonte de crescimento estrutural exponencial para a DRAM.

A lógica deste crescimento divide-se em duas camadas: A primeira camada é o rápido crescimento do TAM dos servidores CPU. A segunda camada é o rápido crescimento da quantidade de DRAM por core de CPU de servidor devido aos fluxos agenticos.

Os 4 pontos lógicos para o rápido crescimento do TAM dos servidores CPU foram detalhados no artigo especial sobre CPUs de abril. Resumidamente:

  1. A proporção de CPU para GPU nos clusters de aceleradores de IA passou de 1:4 para 1:2, e pode até avançar para 1:1.

  2. A latência do processamento da CPU nos fluxos agenticos é muito alta, 50-90%, tornando-se um gargalo importante que necessita de expansão síncrona.

  3. A programação por IA aumentou significativamente a eficiência dos engenheiros de software, resultando num crescimento de ordens de magnitude na quantidade de código e num crescimento exponencial nas chamadas de API de software, convertendo-se diretamente num aumento exponencial destas horas de CPU.

  4. As sandboxes, para garantir a segurança e o isolamento dos dados, como as Agent Analíticas que precisam de copiar grandes quantidades de bases de dados e contexto do utilizador para cada tarefa, levam a um enorme desperdício de memória (DRAM) e núcleos de CPU, e este problema de desperdício não pode ser resolvido em cinco anos ou mais. Além disso, as horas de CPU são tecnicamente difíceis de reduzir através de métodos de otimização.

É por isso que, no trimestre anterior, a AMD disse no seu relatório de resultados que o TAM de CPU chegaria a 60B até 2030. Há dois meses, a AMD/ARM duplicou a previsão do TAM de CPU para 2030 para 120B. Há um mês, a Nvidia voltou a duplicar a previsão do TAM de CPU para 2030 para 200B.

Na semana passada, a Bernstein elevou novamente a orientação do TAM de CPU para 2030 para 223B. Na minha opinião, é quase certo que a orientação do TAM de CPU para 2031 será revista para 400B no futuro. A única dúvida é quando é que os gigantes anunciarão esta revisão.

Segunda camada: Porque é que a quantidade de DRAM por core de CPU de servidor está a crescer rapidamente na era agentica?

  1. Os Agent são processos persistentes com estado, não são respostas a pedidos sem estado.

A web/SaaS tradicional é stateless: o pedido entra, a memória é alocada, processada e imediatamente libertada. Uma tarefa de um Agent pode durar de um minuto a uma hora; durante todo este tempo, o seu histórico de mensagens, system prompt, memória de trabalho, memória de longo prazo e buffer de resultados de ferramentas permanecem todos na DRAM.

Tal como as horas de CPU, a pegada de memória de cada tarefa, devido aos requisitos de estado (stateful) e isolamento da sandbox (cópia de bases de dados e contexto para cada tarefa), é tecnicamente difícil de comprimir.

  1. A janela de contexto está a crescer exponencialmente, e o conjunto de trabalho de cada sessão expande-se proporcionalmente. A concorrência × a pegada de memória por sessão amplifica o multiplicador.

A janela de contexto passou de 32K → 256K → 1M, e o comprimento da sequência para raciocínio/tempo de computação de teste explodiu, e continuará a aumentar no futuro. As mensagens persistentes de cada sessão ativa crescem linearmente com o comprimento do contexto.

Agora, multiplicamos as duas camadas.

Primeira camada: O TAM dos servidores CPU, olhando para 2030-2031, é de cerca de 5-7 vezes (60B → 120B → 200B → 223B, e acredito que chegará a 400B).

Segunda camada: A proporção de DRAM por CPU, cerca de 3-4 vezes (4~8GB → 16~32 GB/core), mas este crescimento pode ser, na sua maioria, um ganho único.

Multiplicando estas duas variáveis independentes, a procura de DRAM no lado dos servidores é um crescimento de ordens de magnitude.

Em 2030, mesmo com um TAM de CPU conservador de 300B, e assumindo um custo de $50 por core de CPU, e na era agentica, de forma mais conservadora, 16GB/core, isso resulta num novo incremento de pelo menos 96EB. A produção total de DRAM este ano é de apenas 47EB, e no próximo ano, mal chegará a 60EB. Este é um incremento surpreendente.

Embora este crescimento exponencial da DRAM impulsionado pela CPU agentica seja, em grande parte, um ganho único na segunda camada, a sua duração será muito longa, porque o fosso da escassez é simplesmente demasiado grande.

Voltando ao quadro no início do artigo. Dos três critérios para se libertar do ciclo tradicional, o primeiro, a personalização da DRAM, pode ser basicamente ignorado.

Quanto ao segundo: uma fonte de procura estruturalmente exponencial e difícil de reverter é válida. A commodity DRAM agora também reúne qualificações para se libertar parcialmente da cíclica tradicional. Não é tão completa como o HBM (dois pontos e meio), mas já é uma mudança substancial.

Terceiro, a velocidade de iteração tecnológica. O ritmo da DRAM também é diferente de antes.

Porque a velocidade de iteração tecnológica da DRAM no passado dependia fortemente da eletrónica de consumo. O progresso do DDR não era muito útil para o desempenho. No entanto, num futuro previsível, a DRAM tradicional para consumo baseado em carbono será muito inferior ao consumo de DRAM para servidores CPU baseados em silício.

Antigamente, o ganho marginal da atualização de velocidade da DRAM era muito baixo. Mas agora, devido ao aumento da procura de memória por parte dos servidores CPU e ao aumento dos requisitos de velocidade DDR para IA no dispositivo, como a Apple que para executar modelos locais grandes, a velocidade do LPDDR está a ficar cada vez mais rápida.

O ganho marginal da atualização de velocidade aumentou significativamente. Portanto, a necessidade de iteração de velocidade do DDR6 e LPDDR6 é muito maior do que antes. Isto também pode ser visto no gráfico; o tempo de iteração do LPDDR6/DDR6 encurtou e a inclinação da velocidade começou a subir novamente.

Antigamente, quando uma nova geração de tecnologia DDR/LPDDR era lançada, a reação de todos era muito fria; só a usavam quando o preço baixava.

Agora, com o lançamento do LPDDR6, todos querem adotá-lo o mais cedo possível, porque o ganho de desempenho com o aumento da velocidade é tangível.

Além disso, a oferta de DDR ainda sofre um imposto adicional do HBM. A velocidade de expansão anual do HBM é tão rápida que, todos os anos, um lote de wafers que poderia ser usado para commodity DDR é desviado para HBM. A taxa de conversão do HBM é extremamente baixa; o HBM3E requer cerca de 3 wafers DDR para produzir a mesma quantidade de bits, e o HBM4 requer 4 wafers. Assim, cerca de 3% a 5% do crescimento anual de bits DDR é diretamente consumido por este imposto de bits HBM.

Portanto, embora o volume de bits DRAM possa crescer cerca de 24% ao ano no futuro (14% do crescimento de wafers, 9% do aumento da densidade DRAM por wafer), depois de contabilizar o imposto de bits HBM, o DDR commodity tradicional não-HBM tem um crescimento anual de bits de apenas cerca de 20% (aproximadamente 10% de crescimento de wafers × aproximadamente 9% de aumento de densidade de nodo).

Qual é o impacto da expansão da produção da CXMT na China? Se expandir agressivamente sem respeitar as regras, poderá arrastar este mercado de volta para o atoleiro cíclico?

A velocidade de expansão da CXMT nos últimos anos ainda é rápida. Em 2025, ainda terá 200.000 wafers por mês. Em 2026, com a contribuição da fábrica de Pequim e das novas linhas de produção, poderá chegar a 320.000-350.000.

A fábrica de Xangai, atualmente em construção, com fases I e II, a fase I deverá adicionar 100.000 wafers por mês até 2027, e a fase II, 100.000 wafers por mês até 2028. Ou seja, 420.000 wafers por mês em 2027 e 500.000 wafers por mês em 2028.

No entanto, é de notar que a densidade de bits DRAM da CXMT é apenas cerca de metade dos três grandes players. Portanto, o volume de bits DRAM que os 500.000 wafers por mês da CXMT podem produzir é apenas metade dos outros. Ao calcular wafers por mês, consideramos o equivalente a metade.

Aplicando este desconto, o impacto da CXMT em toda a indústria DRAM ainda é muito menor. Do final de 2025 ao final de 2028, o impacto da CXMT na CAGR da capacidade de produção de bits DRAM é de apenas cerca de 1,5%. A CAGR da capacidade de produção de DRAM em toda a indústria sobe de cerca de 12,7% para 14,2%.

· Capacidade mensal de DRAM (kwspm) 2025E → 2028E CAGR · Samsung 685K → 920K 10.3% · SK Hynix 519K → 725K 11.8% · Micron 340K → 560K 18.1% · Outros não-China 150K → 218K 13.3% · China (densidade reduzida a metade) 117K → 274K 32.8% · Total incluindo China 1811K → 2697K 14.2% · Total excluindo China 1694K → 2423K 12.7%

Mesmo que a CXMT consiga manter o ritmo de aumento de produção no futuro, o impacto na CAGR do volume de bits DRAM equivalente da indústria até 2030 será de menos de 3%, passando de uma CAGR de 20% para 23%, nada mais.

Além disso, a CXMT é limitada pelas máquinas de litografia. O DDR6 requer taxas mais altas (a partir de 14400 MT/s) e maior densidade. Os três grandes players provavelmente usarão nodos 1c ou mais avançados (~12nm ou menos) para DDR6, já usando EUV de forma abrangente. A CXMT pode ser limitada na velocidade do DDR6 e ter apenas metade da densidade.

Mesmo sendo um ciclo de crescimento, porque é que este superciclo da DRAM durará muito tempo, pelo menos cinco anos sem fim à vista?

A primeira razão é o enorme crescimento da procura do lado dos servidores CPU, que acabámos de discutir, trazendo um crescimento estrutural exponencial da procura de DRAM. Combinando isto com o lado da oferta de DRAM, onde a CAGR do volume de bits é estável em cerca de 20%, podemos ver claramente porque é que o fosso da DRAM se está a alargar nos próximos anos:

O lado da oferta de DRAM tradicional não-HBM cresce cerca de 20% ao ano. Do lado da procura, considerando um TAM de CPU de 60B em 2026, com cada CPU consumindo uma média de 8GB/core de DRAM e cada core a $30~35, a procura é de 16EB.

Em 2030, com um TAM de CPU de 400B, cada CPU consumindo uma média de 16GB/core de DRAM e cada core a $80 (o preço da CPU mais que duplica), a procura é de 80EB. A CAGR do crescimento desta parte da DRAM é de cerca de 50%, excedendo em muito as estimativas atuais.

Ao contrário do HBM, que está diretamente ligado ao token throughput e, portanto, diretamente ligado à eficiência de ganho da GPU, a falta de DRAM afeta principalmente a velocidade dos fluxos agenticos. Por exemplo, em comparação com 16GB/core, com 8GB/core, a velocidade de algumas cargas de trabalho pode ser 30% inferior. Algumas tarefas de baixo valor podem esperar, se necessário. O incentivo para o crescimento estrutural exponencial é forte, mas a procura não é tão rígida como a da GPU.

A Semianalysis afirma que o fosso da DRAM este ano é de uma percentagem de um dígito, e no próximo ano será superior a 10%. Do ponto de vista estrutural da DRAM causado pelo aumento explosivo do número de CPUs agenticas, este fosso continuará a aumentar todos os anos, e é improvável que diminua antes de 2030.

Outra razão pela qual a DRAM pode manter a sua força por muito tempo é que, após o aumento do preço da DRAM, a procura eliminada pelo aumento do preço não desaparece realmente; é apenas adiada. O reservatório de procura é demasiado grande.

O chamado reservatório refere-se àquelas procuras potenciais que são imediatamente libertadas assim que o preço da memória cai. A sua existência significa que, mesmo que a oferta acompanhe faseadamente, é difícil o preço quebrar, porque há sempre nova procura a emergir do reservatório para absorver:

Memória/poder de computação/velocidade é um reservatório:

Há uma grande quantidade de procura que originalmente precisava de memória extra para otimizar a velocidade e o poder de computação, que é suprimida quando a memória é demasiado cara, mas é libertada assim que o preço da memória cai.

Por exemplo, a aceleração CPX prefill da Nvidia foi originalmente concebida para usar GDDR7 de baixo custo extra como um acelerador de prefill dedicado. No entanto, o LPDDR/GDDR tornou-se demasiado caro, até mais caro que o HBM antes do aumento de preço, tornando o ROI deste esquema desvantajoso. Mas quando o preço da memória comum cair, esquemas de otimização semelhantes ao CPX regressarão.

Tarefas de baixo valor são um reservatório: quando o aumento do preço da memória mantém o preço dos tokens elevado, as tarefas de alto valor são priorizadas e as de baixo valor são adiadas. Quando a memória baixa de preço, estas procuras adiadas regressam.

IA no dispositivo é um reservatório: a configuração de memória dos PCs com IA pode subir de 24GB para 128GB. A Apple já exigiu explicitamente que a versão completa de IA no dispositivo mais recente passe de 8GB para 12GB de memória.

A procura reduzida devido ao aumento do preço da memória em eletrónica de consumo convencional, PCs agenticos e telemóveis de baixo custo são todos reservatórios.

A sobreposição de tantos reservatórios forma uma almofada de procura extremamente espessa. É por isso que o crescimento estrutural do DDR neste ciclo será mais forte do que o mercado imagina.

Outra razão pela qual é difícil o preço da DRAM cair significativamente é que a capacidade de produção de HBM e DRAM pode ser convertida entre si, por isso todo o complexo DRAM é reavaliado em conjunto.

No ciclo ascendente, a margem de lucro da DRAM excede largamente a do HBM. A amplitude do aumento de preço do HBM é até impulsionada pela DRAM. O preço do HBM4, assinado este ano, é o preço atual da DRAM x 4, ou seja, o preço correspondente ao fator de empilhamento normal para HBM4.

Assim que a DRAM baixar de preço e a margem bruta cair, devido à transparência dos contratos de longo prazo do HBM, as margens de lucro são garantidas. O HBM sugará indiretamente mais capacidade de produção da DRAM. A descida do preço do HBM também dará aos fabricantes de GPU mais incentivo para atualizar o tamanho do HBM tanto quanto possível, garantindo indiretamente um piso para o preço da DRAM.

A procura de crescimento estrutural exponencial da DRAM está aí, a dificuldade de expansão devido ao abrandamento do scaling de densidade está a aumentar, os planos de expansão dos fabricantes são muito cautelosos, o impacto da CXMT nos próximos anos é limitado, e o reservatório de procura é extremamente grande. Estas quatro razões levam a que, num futuro previsível de pelo menos cinco anos ou mais, seja muito difícil a DRAM entrar num vale cíclico.

As NAND SSD têm hipótese de se libertar da cíclica tradicional?

A força motriz do crescimento estrutural da NAND não é tão forte como a da DDR. A escassez deste ano deve-se principalmente à boa disciplina de produção dos principais players, que não expandiram a produção em grande escala. O aumento anual da capacidade vem principalmente de melhorias tecnológicas: o aumento do número de camadas empilhadas na NAND.

O primeiro crescimento estrutural vem da IA, principalmente do offloading da KV cache, descarregando a KV cache quente/fria do HBM para NAND SSD.

Mas o mais espantoso é que este crescimento do offloading da KV cache ainda não aconteceu em grande escala, e os SSDs já estão mais escassos que a DRAM, com aumentos de preço também maiores. Quando o Rubin CMX da NVIDIA entrar em produção no próximo ano, combinado com a aplicação em larga escala do offloading da KV cache, a escassez de SSDs também aumentará devido a este crescimento estrutural.

Segundo, outro incremento estrutural futuro promissor mencionado no resumo do ano passado, o vídeo de IA, já está a surgir este ano.

O volume do Seedance está a crescer a um ritmo de 10 a 40 vezes por ano. Atualmente, ainda está preso na fase de falta de poder de computação (falta de GPUs), com a procura suprimida pelo poder de computação. Mas quando a fase de falta de GPUs passar, o crescimento estrutural da procura de armazenamento NAND pelo vídeo de IA continuará por um período considerável.

O terceiro crescimento estrutural também vem do crescimento exponencial do uso de sandboxes impulsionado pelos fluxos agenticos. As sandboxes, para garantir a segurança e o isolamento dos dados, como as Agent Analíticas que precisam de copiar grandes quantidades de bases de dados e contexto do utilizador para cada tarefa, levam a um enorme desperdício de memória (DRAM) e núcleos de CPU, o que também trará um enorme desperdício (procura) de SSDs.

O quarto crescimento estrutural, que talvez se manifeste após 2030, vem da rota HBF que requer SSDs. É visto com otimismo em muitas análises de bancos de investimento, mas esta rota tecnológica ainda está distante. O seu papel principal só pode ser armazenar os pesos de modelos grandes, escrever os pesos uma vez e depois ser apenas de leitura, e precisa de ser empacotado com GPU/HBM (48TBps/96TBps), caso contrário, depender do PCIE7/8 é demasiado lento para ser utilizado. Só se pode dizer que é promissor. Haverá uma análise mais detalhada no próximo artigo "Previsão do Fim dos Semicondutores de IA 2026 (III)".

Em suma, o crescimento estrutural das NAND SSD não é tão forte como o do HBM, mas a vantagem é que são baratos. Até 2027, o preço será de apenas $0.8/GB, um quadragésimo do preço da DRAM no mesmo período. Portanto, é como uma propriedade versátil na cache multinível, com fontes de crescimento estrutural demasiado amplas.

Ou seja, não existe um cenário em que DRAM/HBM aumentam de preço isoladamente enquanto os SSDs não aumentam. Porque se tal acontecesse, as pessoas tentariam usar SSDs para desempenhar algumas funções da DRAM/HBM, alcançando efeitos semelhantes a um custo mais baixo. HBM, DRAM e NAND não são três histórias independentes, mas sim o crescimento estrutural da mesma hierarquia de memória de IA em diferentes camadas de temperatura.

Com a procura de crescimento estrutural exponencial aí, será que as NAND SSD se libertaram do ciclo? Então é preciso olhar para a disciplina de produção dos fabricantes de NAND SSD. O único que pode não cumprir a disciplina de produção é a YMTC (Yangtze Memory Technologies). Porque é um dilema do prisioneiro; assim que um player expandir agressivamente sem respeitar as regras, a dificuldade de expandir a produção em toda a indústria NAND é muito mais simples que na DRAM.

Mas, pelo menos, este ciclo da NAND é também um superciclo. A procura trazida por vários crescimentos estruturais exponenciais adia o ciclo descendente para 2030 sem grandes problemas.

Link original

Clique para saber sobre as posições de emprego em aberto no BlockBeats

Bem-vindo a juntar-te à comunidade oficial do BlockBeats:

Grupo de subscrição Telegram: https://t.me/theblockbeats

Grupo de discussão Telegram: https://t.me/BlockBeats_App

Conta oficial Twitter: https://twitter.com/BlockBeatsAsia

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário