Futuros
Aceda a centenas de contratos perpétuos
CFD
Ouro
Plataforma de ativos tradicionais globais
Opções
Hot
Negoceie Opções Vanilla ao estilo europeu
Conta Unificada
Maximize a eficiência do seu capital
Negociação de demonstração
Introdução à negociação de futuros
Prepare-se para a sua negociação de futuros
Eventos de futuros
Participe em eventos para recompensas
Negociação de demonstração
Utilize fundos virtuais para experimentar uma negociação sem riscos
CFD
Derivados CFD de ações dos EUA
Ações dos EUA
Aceder a ações e ETF reais dos EUA
Ações de Hong Kong
Negociar ações de qualidade cotadas em Hong Kong
Ações coreanas
SK Hynix
Negoceie ações coreanas reais e invista em ativos populares
Futuros de ações
Alta alavancagem, negociação 24/7
Ações tokenizadas
Garantido por ativos de ações reais
IPO Access
Desbloquear acesso completo a IPO de ações globais
GUSD
Cunhe GUSD para rendimentos de RWA do Tesouro
Atividades de ações
Negociar ações populares e desbloquear airdrops generosos
Lançamento
CandyDrop
Recolher doces para ganhar airdrops
Launchpool
Faça staking rapidamente, ganhe potenciais novos tokens
HODLer Airdrop
Detenha GT e obtenha airdrops maciços de graça
IPO Access
Desbloquear acesso completo a IPO de ações globais
Pontos Alpha
Negoceie ativos on-chain para airdrops
Pontos de futuros
Ganhe pontos de futuros e receba recompensas de airdrop
Investimento
Simple Earn
Ganhe juros com tokens inativos
Investimento automático
Invista automaticamente de forma regular.
Investimento Duplo
Aproveite a volatilidade do mercado
Soft Staking
Ganhe recompensas com staking flexível
Empréstimo de criptomoedas
0 Fees
Dê em garantia uma criptomoeda para pedir outra emprestada
Centro de empréstimos
Centro de empréstimos integrado
Promoções
Centro de atividades
Participe de atividades para recompensas
Referência
20 USDT
Convide amigos para recompensas de ref.
Programa de afiliados
Ganhe recomp. de comissão exclusivas
Gate Booster
Aumente a influência e ganhe airdrops
Announcements
Atualizações na plataforma em tempo real
Blog da Gate
Artigos da indústria cripto
Serviços VIP
Enormes descontos nas taxas
Gestão de ativos
Solução integral para a gestão de ativos
Institucional
Soluções de ativos digitais para empresas
Desenvolvedores (API)
Conecta-se ao ecossistema de aplicações Gate
Transferência Bancária OTC
Deposite e levante moeda fiduciária
Programa de corretora
Mecanismo generoso de reembolso de API
AI
Gate AI
O seu parceiro de IA conversacional tudo-em-um
Gate AI Bot
Utilize o Gate AI diretamente na sua aplicação social
GateClaw
Gate Lagosta Azul, pronto a usar
Gate for AI Agent
Infraestrutura de IA, Gate MCP, Skills e CLI
Gate Skills Hub
Mais de 10 mil competências
Do escritório à negociação, uma biblioteca de competências tudo-em-um torna a IA ainda mais útil
Projeção final dos semicondutores de IA: a lacuna durará pelo menos mais cinco anos?
Quando a evolução estrutural dos semicondutores chega ao eixo principal da inferência de IA, a memória e o armazenamento tornam-se o maior gargalo. A maior dúvida do mercado sobre memória e armazenamento é:
Será que HBM/DRAM/SSD se libertarão da cíclica tradicional?
A evolução da arquitetura GPU que depende do crescimento exponencial do HBM irá parar? Quando irá parar?
Qual é o impacto da expansão da produção da CXMT? Irá arrastar este mercado de volta para o atoleiro cíclico?
Este artigo tenta estabelecer um quadro para analisar estas questões
Tudo é cíclico, e a memória é particularmente cíclica. A maior fonte disso é o ciclo de expansão da produção muito longo, a incapacidade de expandir rapidamente a produção e o desfasamento com períodos de escassez de procura.
Algumas formas possíveis de se libertar da cíclica tradicional:
Personalização: Os produtos não são intercambiáveis, a capacidade de produção não pode ser transferida arbitrariamente e são necessários contratos de longo prazo.
Crescimento estrutural exponencial da procura: A própria curva da procura é muito íngreme e a oferta nunca consegue acompanhar.
Atualização rápida da iteração tecnológica: Cada nova geração descarta rapidamente a anterior.
Cumprir qualquer um destes pontos permite libertar-se parcialmente do ciclo tradicional; cumprir dois ou três permite libertar-se da maior parte do ciclo tradicional.
De acordo com este quadro, o HBM cumpre cerca de dois pontos e meio destes três.
O HBM tem, de facto, algum grau de personalização e codesign com a Nvidia, mas não é muito forte. A parte verdadeiramente personalizada está apenas na embalagem e no base die; as camadas superiores de DRAM die continuam a ser totalmente padronizadas pela JEDEC.
Por exemplo, quando o HBM3E da Samsung não passou na qualificação da NVIDIA e a sua quota caiu de cerca de 60% para 20%, esta não ficou com essa capacidade de produção encalhada e inutilizável; em vez disso, transferiu-a para o TPU do Google e para a AMD. Fisicamente, o HBM3E para a NVIDIA e o HBM3E para a AMD são a mesma coisa. Portanto, a capacidade de produção ainda é parcialmente livremente transferível.
Após o HBM4, haverá mais personalização, incluindo a integração de lógica personalizada e/ou cache no base die. Uma forma mais complexa é colocar o controlador de memória HBM4E e a interface die-to-die personalizada diretamente no base die lógico.
A SemiAnalysis mencionou que a OpenAI, a NVIDIA e a AMD estão cada uma a trabalhar em HBM personalizado, mas isto refere-se à personalização do base die; as camadas DRAM acima continuam a ser padrão.
Devido à característica de personalização parcial, o HBM precisa de cooperação principalmente na embalagem, o que também leva os clientes a terem de assinar contratos de longo prazo, mas a capacidade de produção pode, de facto, ser transferida, por isso o HBM pode ser considerado como cumprindo meio ponto.
A razão mais intuitiva é que a necessidade de atualização de hardware do token factory da Nvidia para aumentar o token throughput levou a uma rápida atualização da largura de banda do HBM e a um crescimento exponencial da procura de tamanho do HBM.
Este ponto é, na verdade, a conclusão do artigo anterior "Previsão do Fim dos Semicondutores de IA 2026 (I)":
token throughput = tamanho HBM × largura de banda HBM, duplicando a cada geração.
O tamanho HBM por GPU cresce cerca de 40% ou mais por ano.
A inclinação desta curva de procura é algo que o lado da oferta de DRAM, com um crescimento de wafer de 14% e um aumento de densidade de 9%, dificilmente consegue acompanhar.
No domínio do hardware, os requisitos de largura de banda extremamente alta e tamanho de memória extremamente grande da KV cache na fase de atenção também levaram ao estatuto único do HBM. Mesmo que o preço do HBM triplique ou quintuplique, o ganho marginal no token throughput ao gastar dinheiro em HBM ainda é muito mais rentável do que gastar noutros sítios.
Outras vias de memória, como SRAM, HBF, CXL, PIM, atualmente não conseguem competir diretamente com o HBM na sua via principal de KV cache/attention, e é improvável que encontrem uma alternativa nos próximos 5 anos ou mais.
A era do DDR3 durou 15 anos e ainda estamos apenas na era do DDR5, enquanto a velocidade de atualização do HBM é basicamente de dois anos por geração, muito mais rápida do que o DDR tradicional, e recentemente tem mostrado uma tendência de aceleração. O tamanho HBM × largura de banda HBM duplica a cada geração, o que atualmente está totalmente de acordo com esta regra.
A cada dois anos, com a atualização do HBM, a velocidade da GPU NV aumenta basicamente de forma exponencial: 2TB/s -> 3.5TB/s -> 4.8TB/s -> 8TB/s -> 22TB/s, e a velocidade do HBM é diretamente proporcional ao token throughput de inferência. O custo marginal de utilização da geração anterior de HBM torna-se pouco vantajoso, e todos têm incentivo para usar os produtos mais recentes, pois, embora mais caros, trazem mais benefícios (token throughput).
A lógica da era do token factory é: quanto mais atualização tecnológica (largura de banda HBM), mais se ganha.
Esta diferença de velocidade cria uma situação semelhante à das CPUs: os produtos antigos desvalorizam rapidamente, diminuindo o valor de acumular stock. Por exemplo, o valor do HBM3 desvalorizou muito rapidamente; hoje em dia, basicamente não é utilizado em produtos mainstream.
Portanto, a escolha racional dos fabricantes de HBM passou de competir pela capacidade atual de produção para ocupar quota de mercado (Quantity Competition) para competir em estabilidade e velocidade HBM, e na quota de qualificação na plataforma da próxima geração da NVIDIA (Quality Competition), evitando assim o dilema do prisioneiro no ciclo descendente tradicional, onde todos relutam em reduzir a produção para não perder quota de mercado.
Comparando HBM e DRAM tradicional, cumpre dois pontos e meio dos três critérios. Então, o HBM consegue libertar-se da cíclica tradicional?
A origem da cíclica da memória, na narrativa mainstream, é que a DRAM tem uma natureza de commodity (indiferenciada → guerra de preços → stock acumulável), daí ser cíclica.
Mas a natureza de commodity por si só não gera o ciclo; é apenas um amplificador de amplitude.
Especialmente no campo da DRAM, já existiu o dilema do prisioneiro: no ciclo descendente, a Samsung expandiu a produção para ganhar quota de mercado; quem reduzisse a produção primeiro saía a perder, levando ninguém a ousar reduzir facilmente, resultando em perdas severas para todos.
Na verdade, a principal fonte estrutural da cíclica é que o ciclo de oferta é demasiado longo, sendo fácil desalinhar com o ciclo da procura. Construir uma fábrica leva 3 anos e requer dezenas de milhares de milhões de dólares de investimento; uma vez decidido, é irreversível, enquanto o crescimento da procura é instável. Cada vez que surge um novo paradigma de crescimento, como serviços cloud, telemóveis com internet móvel ou procura online na pandemia, há um crescimento explosivo. Após dois anos, o crescimento abranda, a oferta excede a procura e os preços caem abruptamente, resultando num ciclo de perdas.
Tudo é cíclico, e o HBM não pode escapar a isto. No entanto, enquanto a procura de tokens continuar a crescer exponencialmente, o crescimento estrutural exponencial irá atenuar a ciclicidade, porque a previsibilidade da procura é maior. Além disso, quando os preços caem, os clientes têm procura por aumentar o tamanho do HBM (aumentando assim o token throughput). Juntamente com o facto de o HBM ter alguns requisitos de personalização que levam a contratos de longo prazo, isto transforma a ciclicidade num ciclo de crescimento, e este ciclo será particularmente longo.
· Ciclicidade: Ganha-se muito no ciclo ascendente, perde-se muito no ciclo descendente. · Ciclicidade de crescimento: Ganha-se muito no ciclo ascendente, ganha-se menos no ciclo descendente.
Além disso, com base nestes três critérios para se libertar do ciclo tradicional, o HBM/DRAM ainda tem uma vantagem importante:
Por volta do ano 2000, a densidade de bits DRAM por wafer crescia cerca de 45% ao ano. Ou seja, mesmo sem aumentar o número de wafers, o volume de bits DRAM do lado da oferta ainda podia crescer 45% ao ano.
Há dez anos, o crescimento anual da densidade de bits DRAM caiu para 20%. Agora, caiu para 9%. Antigamente, para expandir a produção de DRAM, mal era preciso construir novas fábricas para obter um aumento anual de 20-30% no volume de bits. Agora, para expandir a produção de DRAM, depende-se mais do aumento do número de wafers, ou seja, da construção de novas fábricas e salas limpas.
Outra dificuldade na rápida expansão do HBM é que o HBM3e requer cerca de 3 vezes mais wafers de DRAM, e o HBM4, devido ao aumento da densidade de empilhamento, requer cerca de 4 vezes mais wafers de DRAM. Isto significa que, em relação aos bits DRAM, os bits HBM tornam-se cada vez mais difíceis de fabricar; o número de bits HBM produzidos por wafer DRAM está a diminuir, o que equivale a uma deflação.
No futuro, o HBM poderá algum dia passar de um ciclo de crescimento para um ciclo tradicional? O fator mais importante é o crescimento estrutural exponencial. Então,
Na era da inferência de IA, esta evolução da arquitetura GPU que depende do crescimento exponencial do HBM irá parar? Quando irá parar?
token throughput = tamanho HBM × largura de banda HBM. A razão para o crescimento do tamanho HBM nesta lei fundamental do crescimento exponencial do HBM é precisamente o crescimento da KV cache. As características da KVCache e da Atenção também são muito adequadas ao HBM. Isto até faz com que o HBM lidere em relação a outras rotas tecnológicas, maximizando a utilização das fases de KVCache e Atenção.
Por outras palavras, se a KV cache deixar de existir a nível arquitetural, a lógica de crescimento exponencial do tamanho HBM também será desafiada.
Portanto, a essência desta questão é: este mecanismo de atenção representado pelo Transformer e o mecanismo de KV cache dele derivado desaparecerão? Serão substituídos após a recessão?
Olhando para os padrões históricos: em cada revolução arquitetural de modelos de IA, o que realmente é preservado são as operações primitivas que possuem algum tipo de universalidade matemática.
Por exemplo: a FFN (Feedforward Network, ou seja, as inúmeras camadas MLP nos modelos) é um produto da era do deep learning de 2012, mas sobreviveu até hoje nos grandes modelos de linguagem e ainda ocupa uma parte considerável dos parâmetros do modelo. Porque sobreviveu? Porque também segue o Teorema da Aproximação Universal: qualquer MLP suficientemente larga pode aproximar qualquer função contínua.
A Atenção é, muito provavelmente, outro primitivo que será preservado. Porque resolve um problema igualmente fundamental: o roteamento dinâmico (Dynamic Routing) entre quaisquer duas posições numa sequência, permitindo que quaisquer duas posições numa sequência estabeleçam uma ligação conforme necessário. Uma vez que esta capacidade se mostre eficaz, é difícil descartá-la.
Portanto, mesmo que a arquitetura futura evolua de puro Transformer para uma arquitetura híbrida, ou para modelos de mundo, as camadas de atenção continuarão a existir, a KV cache (ou o seu equivalente após compressão latente) continuará a ser necessária, e o HBM continuará a ser um dos núcleos da inferência. Esta evolução da arquitetura GPU que depende do crescimento exponencial do HBM para a KV cache não irá parar.
Então, e a DRAM? Há alguma possibilidade de se libertar da cíclica tradicional no futuro?
Há algum consenso no mercado sobre o HBM se libertar da ciclicidade, mas para a DRAM, atualmente não há praticamente nenhum consenso.
Voltando ao quadro anterior, dos três critérios para se libertar do ciclo tradicional, a DRAM não tem personalização, por isso só podemos olhar para a velocidade de iteração tecnológica. O mais crucial é ver se há um crescimento estrutural exponencial. A resposta é sim.
No conceito de AI token factory, o crescimento estrutural exponencial é, de facto, principalmente para o HBM. Mas as coisas começaram a mudar a partir do final de 2025: com a libertação do potencial das CPUs agenticas, a procura de DRAM associada às CPUs está a tornar-se uma nova fonte de crescimento estrutural exponencial para a DRAM.
A lógica deste crescimento divide-se em duas camadas: A primeira camada é o rápido crescimento do TAM dos servidores CPU. A segunda camada é o rápido crescimento da quantidade de DRAM por core de CPU de servidor devido aos fluxos agenticos.
Os 4 pontos lógicos para o rápido crescimento do TAM dos servidores CPU foram detalhados no artigo especial sobre CPUs de abril. Resumidamente:
A proporção de CPU para GPU nos clusters de aceleradores de IA passou de 1:4 para 1:2, e pode até avançar para 1:1.
A latência do processamento da CPU nos fluxos agenticos é muito alta, 50-90%, tornando-se um gargalo importante que necessita de expansão síncrona.
A programação por IA aumentou significativamente a eficiência dos engenheiros de software, resultando num crescimento de ordens de magnitude na quantidade de código e num crescimento exponencial nas chamadas de API de software, convertendo-se diretamente num aumento exponencial destas horas de CPU.
As sandboxes, para garantir a segurança e o isolamento dos dados, como as Agent Analíticas que precisam de copiar grandes quantidades de bases de dados e contexto do utilizador para cada tarefa, levam a um enorme desperdício de memória (DRAM) e núcleos de CPU, e este problema de desperdício não pode ser resolvido em cinco anos ou mais. Além disso, as horas de CPU são tecnicamente difíceis de reduzir através de métodos de otimização.
É por isso que, no trimestre anterior, a AMD disse no seu relatório de resultados que o TAM de CPU chegaria a 60B até 2030. Há dois meses, a AMD/ARM duplicou a previsão do TAM de CPU para 2030 para 120B. Há um mês, a Nvidia voltou a duplicar a previsão do TAM de CPU para 2030 para 200B.
Na semana passada, a Bernstein elevou novamente a orientação do TAM de CPU para 2030 para 223B. Na minha opinião, é quase certo que a orientação do TAM de CPU para 2031 será revista para 400B no futuro. A única dúvida é quando é que os gigantes anunciarão esta revisão.
Segunda camada: Porque é que a quantidade de DRAM por core de CPU de servidor está a crescer rapidamente na era agentica?
A web/SaaS tradicional é stateless: o pedido entra, a memória é alocada, processada e imediatamente libertada. Uma tarefa de um Agent pode durar de um minuto a uma hora; durante todo este tempo, o seu histórico de mensagens, system prompt, memória de trabalho, memória de longo prazo e buffer de resultados de ferramentas permanecem todos na DRAM.
Tal como as horas de CPU, a pegada de memória de cada tarefa, devido aos requisitos de estado (stateful) e isolamento da sandbox (cópia de bases de dados e contexto para cada tarefa), é tecnicamente difícil de comprimir.
A janela de contexto passou de 32K → 256K → 1M, e o comprimento da sequência para raciocínio/tempo de computação de teste explodiu, e continuará a aumentar no futuro. As mensagens persistentes de cada sessão ativa crescem linearmente com o comprimento do contexto.
Agora, multiplicamos as duas camadas.
Primeira camada: O TAM dos servidores CPU, olhando para 2030-2031, é de cerca de 5-7 vezes (60B → 120B → 200B → 223B, e acredito que chegará a 400B).
Segunda camada: A proporção de DRAM por CPU, cerca de 3-4 vezes (4~8GB → 16~32 GB/core), mas este crescimento pode ser, na sua maioria, um ganho único.
Multiplicando estas duas variáveis independentes, a procura de DRAM no lado dos servidores é um crescimento de ordens de magnitude.
Em 2030, mesmo com um TAM de CPU conservador de 300B, e assumindo um custo de $50 por core de CPU, e na era agentica, de forma mais conservadora, 16GB/core, isso resulta num novo incremento de pelo menos 96EB. A produção total de DRAM este ano é de apenas 47EB, e no próximo ano, mal chegará a 60EB. Este é um incremento surpreendente.
Embora este crescimento exponencial da DRAM impulsionado pela CPU agentica seja, em grande parte, um ganho único na segunda camada, a sua duração será muito longa, porque o fosso da escassez é simplesmente demasiado grande.
Voltando ao quadro no início do artigo. Dos três critérios para se libertar do ciclo tradicional, o primeiro, a personalização da DRAM, pode ser basicamente ignorado.
Quanto ao segundo: uma fonte de procura estruturalmente exponencial e difícil de reverter é válida. A commodity DRAM agora também reúne qualificações para se libertar parcialmente da cíclica tradicional. Não é tão completa como o HBM (dois pontos e meio), mas já é uma mudança substancial.
Terceiro, a velocidade de iteração tecnológica. O ritmo da DRAM também é diferente de antes.
Porque a velocidade de iteração tecnológica da DRAM no passado dependia fortemente da eletrónica de consumo. O progresso do DDR não era muito útil para o desempenho. No entanto, num futuro previsível, a DRAM tradicional para consumo baseado em carbono será muito inferior ao consumo de DRAM para servidores CPU baseados em silício.
Antigamente, o ganho marginal da atualização de velocidade da DRAM era muito baixo. Mas agora, devido ao aumento da procura de memória por parte dos servidores CPU e ao aumento dos requisitos de velocidade DDR para IA no dispositivo, como a Apple que para executar modelos locais grandes, a velocidade do LPDDR está a ficar cada vez mais rápida.
O ganho marginal da atualização de velocidade aumentou significativamente. Portanto, a necessidade de iteração de velocidade do DDR6 e LPDDR6 é muito maior do que antes. Isto também pode ser visto no gráfico; o tempo de iteração do LPDDR6/DDR6 encurtou e a inclinação da velocidade começou a subir novamente.
Antigamente, quando uma nova geração de tecnologia DDR/LPDDR era lançada, a reação de todos era muito fria; só a usavam quando o preço baixava.
Agora, com o lançamento do LPDDR6, todos querem adotá-lo o mais cedo possível, porque o ganho de desempenho com o aumento da velocidade é tangível.
Além disso, a oferta de DDR ainda sofre um imposto adicional do HBM. A velocidade de expansão anual do HBM é tão rápida que, todos os anos, um lote de wafers que poderia ser usado para commodity DDR é desviado para HBM. A taxa de conversão do HBM é extremamente baixa; o HBM3E requer cerca de 3 wafers DDR para produzir a mesma quantidade de bits, e o HBM4 requer 4 wafers. Assim, cerca de 3% a 5% do crescimento anual de bits DDR é diretamente consumido por este imposto de bits HBM.
Portanto, embora o volume de bits DRAM possa crescer cerca de 24% ao ano no futuro (14% do crescimento de wafers, 9% do aumento da densidade DRAM por wafer), depois de contabilizar o imposto de bits HBM, o DDR commodity tradicional não-HBM tem um crescimento anual de bits de apenas cerca de 20% (aproximadamente 10% de crescimento de wafers × aproximadamente 9% de aumento de densidade de nodo).
Qual é o impacto da expansão da produção da CXMT na China? Se expandir agressivamente sem respeitar as regras, poderá arrastar este mercado de volta para o atoleiro cíclico?
A velocidade de expansão da CXMT nos últimos anos ainda é rápida. Em 2025, ainda terá 200.000 wafers por mês. Em 2026, com a contribuição da fábrica de Pequim e das novas linhas de produção, poderá chegar a 320.000-350.000.
A fábrica de Xangai, atualmente em construção, com fases I e II, a fase I deverá adicionar 100.000 wafers por mês até 2027, e a fase II, 100.000 wafers por mês até 2028. Ou seja, 420.000 wafers por mês em 2027 e 500.000 wafers por mês em 2028.
No entanto, é de notar que a densidade de bits DRAM da CXMT é apenas cerca de metade dos três grandes players. Portanto, o volume de bits DRAM que os 500.000 wafers por mês da CXMT podem produzir é apenas metade dos outros. Ao calcular wafers por mês, consideramos o equivalente a metade.
Aplicando este desconto, o impacto da CXMT em toda a indústria DRAM ainda é muito menor. Do final de 2025 ao final de 2028, o impacto da CXMT na CAGR da capacidade de produção de bits DRAM é de apenas cerca de 1,5%. A CAGR da capacidade de produção de DRAM em toda a indústria sobe de cerca de 12,7% para 14,2%.
· Capacidade mensal de DRAM (kwspm) 2025E → 2028E CAGR · Samsung 685K → 920K 10.3% · SK Hynix 519K → 725K 11.8% · Micron 340K → 560K 18.1% · Outros não-China 150K → 218K 13.3% · China (densidade reduzida a metade) 117K → 274K 32.8% · Total incluindo China 1811K → 2697K 14.2% · Total excluindo China 1694K → 2423K 12.7%
Mesmo que a CXMT consiga manter o ritmo de aumento de produção no futuro, o impacto na CAGR do volume de bits DRAM equivalente da indústria até 2030 será de menos de 3%, passando de uma CAGR de 20% para 23%, nada mais.
Além disso, a CXMT é limitada pelas máquinas de litografia. O DDR6 requer taxas mais altas (a partir de 14400 MT/s) e maior densidade. Os três grandes players provavelmente usarão nodos 1c ou mais avançados (~12nm ou menos) para DDR6, já usando EUV de forma abrangente. A CXMT pode ser limitada na velocidade do DDR6 e ter apenas metade da densidade.
Mesmo sendo um ciclo de crescimento, porque é que este superciclo da DRAM durará muito tempo, pelo menos cinco anos sem fim à vista?
A primeira razão é o enorme crescimento da procura do lado dos servidores CPU, que acabámos de discutir, trazendo um crescimento estrutural exponencial da procura de DRAM. Combinando isto com o lado da oferta de DRAM, onde a CAGR do volume de bits é estável em cerca de 20%, podemos ver claramente porque é que o fosso da DRAM se está a alargar nos próximos anos:
O lado da oferta de DRAM tradicional não-HBM cresce cerca de 20% ao ano. Do lado da procura, considerando um TAM de CPU de 60B em 2026, com cada CPU consumindo uma média de 8GB/core de DRAM e cada core a $30~35, a procura é de 16EB.
Em 2030, com um TAM de CPU de 400B, cada CPU consumindo uma média de 16GB/core de DRAM e cada core a $80 (o preço da CPU mais que duplica), a procura é de 80EB. A CAGR do crescimento desta parte da DRAM é de cerca de 50%, excedendo em muito as estimativas atuais.
Ao contrário do HBM, que está diretamente ligado ao token throughput e, portanto, diretamente ligado à eficiência de ganho da GPU, a falta de DRAM afeta principalmente a velocidade dos fluxos agenticos. Por exemplo, em comparação com 16GB/core, com 8GB/core, a velocidade de algumas cargas de trabalho pode ser 30% inferior. Algumas tarefas de baixo valor podem esperar, se necessário. O incentivo para o crescimento estrutural exponencial é forte, mas a procura não é tão rígida como a da GPU.
A Semianalysis afirma que o fosso da DRAM este ano é de uma percentagem de um dígito, e no próximo ano será superior a 10%. Do ponto de vista estrutural da DRAM causado pelo aumento explosivo do número de CPUs agenticas, este fosso continuará a aumentar todos os anos, e é improvável que diminua antes de 2030.
Outra razão pela qual a DRAM pode manter a sua força por muito tempo é que, após o aumento do preço da DRAM, a procura eliminada pelo aumento do preço não desaparece realmente; é apenas adiada. O reservatório de procura é demasiado grande.
O chamado reservatório refere-se àquelas procuras potenciais que são imediatamente libertadas assim que o preço da memória cai. A sua existência significa que, mesmo que a oferta acompanhe faseadamente, é difícil o preço quebrar, porque há sempre nova procura a emergir do reservatório para absorver:
Memória/poder de computação/velocidade é um reservatório:
Há uma grande quantidade de procura que originalmente precisava de memória extra para otimizar a velocidade e o poder de computação, que é suprimida quando a memória é demasiado cara, mas é libertada assim que o preço da memória cai.
Por exemplo, a aceleração CPX prefill da Nvidia foi originalmente concebida para usar GDDR7 de baixo custo extra como um acelerador de prefill dedicado. No entanto, o LPDDR/GDDR tornou-se demasiado caro, até mais caro que o HBM antes do aumento de preço, tornando o ROI deste esquema desvantajoso. Mas quando o preço da memória comum cair, esquemas de otimização semelhantes ao CPX regressarão.
Tarefas de baixo valor são um reservatório: quando o aumento do preço da memória mantém o preço dos tokens elevado, as tarefas de alto valor são priorizadas e as de baixo valor são adiadas. Quando a memória baixa de preço, estas procuras adiadas regressam.
IA no dispositivo é um reservatório: a configuração de memória dos PCs com IA pode subir de 24GB para 128GB. A Apple já exigiu explicitamente que a versão completa de IA no dispositivo mais recente passe de 8GB para 12GB de memória.
A procura reduzida devido ao aumento do preço da memória em eletrónica de consumo convencional, PCs agenticos e telemóveis de baixo custo são todos reservatórios.
A sobreposição de tantos reservatórios forma uma almofada de procura extremamente espessa. É por isso que o crescimento estrutural do DDR neste ciclo será mais forte do que o mercado imagina.
Outra razão pela qual é difícil o preço da DRAM cair significativamente é que a capacidade de produção de HBM e DRAM pode ser convertida entre si, por isso todo o complexo DRAM é reavaliado em conjunto.
No ciclo ascendente, a margem de lucro da DRAM excede largamente a do HBM. A amplitude do aumento de preço do HBM é até impulsionada pela DRAM. O preço do HBM4, assinado este ano, é o preço atual da DRAM x 4, ou seja, o preço correspondente ao fator de empilhamento normal para HBM4.
Assim que a DRAM baixar de preço e a margem bruta cair, devido à transparência dos contratos de longo prazo do HBM, as margens de lucro são garantidas. O HBM sugará indiretamente mais capacidade de produção da DRAM. A descida do preço do HBM também dará aos fabricantes de GPU mais incentivo para atualizar o tamanho do HBM tanto quanto possível, garantindo indiretamente um piso para o preço da DRAM.
A procura de crescimento estrutural exponencial da DRAM está aí, a dificuldade de expansão devido ao abrandamento do scaling de densidade está a aumentar, os planos de expansão dos fabricantes são muito cautelosos, o impacto da CXMT nos próximos anos é limitado, e o reservatório de procura é extremamente grande. Estas quatro razões levam a que, num futuro previsível de pelo menos cinco anos ou mais, seja muito difícil a DRAM entrar num vale cíclico.
As NAND SSD têm hipótese de se libertar da cíclica tradicional?
A força motriz do crescimento estrutural da NAND não é tão forte como a da DDR. A escassez deste ano deve-se principalmente à boa disciplina de produção dos principais players, que não expandiram a produção em grande escala. O aumento anual da capacidade vem principalmente de melhorias tecnológicas: o aumento do número de camadas empilhadas na NAND.
O primeiro crescimento estrutural vem da IA, principalmente do offloading da KV cache, descarregando a KV cache quente/fria do HBM para NAND SSD.
Mas o mais espantoso é que este crescimento do offloading da KV cache ainda não aconteceu em grande escala, e os SSDs já estão mais escassos que a DRAM, com aumentos de preço também maiores. Quando o Rubin CMX da NVIDIA entrar em produção no próximo ano, combinado com a aplicação em larga escala do offloading da KV cache, a escassez de SSDs também aumentará devido a este crescimento estrutural.
Segundo, outro incremento estrutural futuro promissor mencionado no resumo do ano passado, o vídeo de IA, já está a surgir este ano.
O volume do Seedance está a crescer a um ritmo de 10 a 40 vezes por ano. Atualmente, ainda está preso na fase de falta de poder de computação (falta de GPUs), com a procura suprimida pelo poder de computação. Mas quando a fase de falta de GPUs passar, o crescimento estrutural da procura de armazenamento NAND pelo vídeo de IA continuará por um período considerável.
O terceiro crescimento estrutural também vem do crescimento exponencial do uso de sandboxes impulsionado pelos fluxos agenticos. As sandboxes, para garantir a segurança e o isolamento dos dados, como as Agent Analíticas que precisam de copiar grandes quantidades de bases de dados e contexto do utilizador para cada tarefa, levam a um enorme desperdício de memória (DRAM) e núcleos de CPU, o que também trará um enorme desperdício (procura) de SSDs.
O quarto crescimento estrutural, que talvez se manifeste após 2030, vem da rota HBF que requer SSDs. É visto com otimismo em muitas análises de bancos de investimento, mas esta rota tecnológica ainda está distante. O seu papel principal só pode ser armazenar os pesos de modelos grandes, escrever os pesos uma vez e depois ser apenas de leitura, e precisa de ser empacotado com GPU/HBM (48TBps/96TBps), caso contrário, depender do PCIE7/8 é demasiado lento para ser utilizado. Só se pode dizer que é promissor. Haverá uma análise mais detalhada no próximo artigo "Previsão do Fim dos Semicondutores de IA 2026 (III)".
Em suma, o crescimento estrutural das NAND SSD não é tão forte como o do HBM, mas a vantagem é que são baratos. Até 2027, o preço será de apenas $0.8/GB, um quadragésimo do preço da DRAM no mesmo período. Portanto, é como uma propriedade versátil na cache multinível, com fontes de crescimento estrutural demasiado amplas.
Ou seja, não existe um cenário em que DRAM/HBM aumentam de preço isoladamente enquanto os SSDs não aumentam. Porque se tal acontecesse, as pessoas tentariam usar SSDs para desempenhar algumas funções da DRAM/HBM, alcançando efeitos semelhantes a um custo mais baixo. HBM, DRAM e NAND não são três histórias independentes, mas sim o crescimento estrutural da mesma hierarquia de memória de IA em diferentes camadas de temperatura.
Com a procura de crescimento estrutural exponencial aí, será que as NAND SSD se libertaram do ciclo? Então é preciso olhar para a disciplina de produção dos fabricantes de NAND SSD. O único que pode não cumprir a disciplina de produção é a YMTC (Yangtze Memory Technologies). Porque é um dilema do prisioneiro; assim que um player expandir agressivamente sem respeitar as regras, a dificuldade de expandir a produção em toda a indústria NAND é muito mais simples que na DRAM.
Mas, pelo menos, este ciclo da NAND é também um superciclo. A procura trazida por vários crescimentos estruturais exponenciais adia o ciclo descendente para 2030 sem grandes problemas.
Clique para saber sobre as posições de emprego em aberto no BlockBeats
Bem-vindo a juntar-te à comunidade oficial do BlockBeats:
Grupo de subscrição Telegram: https://t.me/theblockbeats
Grupo de discussão Telegram: https://t.me/BlockBeats_App
Conta oficial Twitter: https://twitter.com/BlockBeatsAsia