Nos últimos anos, com a rápida expansão em escala de operações de IA, como inferência de grandes modelos, bancos de dados em memória e computação de alto desempenho, os centros de dados estão sendo levados ao ponto crítico de recursos de memória. A DRAM, que antes era um componente padrão dos servidores, tornou-se agora o recurso de infraestrutura mais caro e escasso, com aumentos explosivos de preços e rigidez de oferta, tornando-se um fator-chave que restringe o ritmo da implantação da capacidade computacional de IA.

De acordo com dados de rastreamento da Counterpoint Research, o preço da memória DIMM de 64 GB aumentou 3,5 vezes entre o terceiro trimestre de 2025 e o primeiro trimestre de 2026, e a tendência de alta ainda não atingiu o pico — estima-se que, até o terceiro trimestre de 2026, o aumento acumulado chegue a 5 vezes.

Os dados da TrendForce são ainda mais diretos: no primeiro trimestre de 2026, o aumento trimestral dos preços de contrato da DRAM foi de 93% a 98%, impulsionando a receita geral da indústria global de DRAM a crescer 81% em relação ao trimestre anterior, atingindo US$ 97 bilhões. No segundo trimestre, a tendência de alta não parou, com os preços de contrato previstos para subir mais 58% a 63%.

Os sinais no mercado à vista são ainda mais diretos: atualmente, o preço unitário à vista da DRAM DDR5 RDIMM de nível servidor está entre US$ 27 e US$ 37 por GB. Apenas para montar um pool de memória de 12 TB, o custo de aquisição de hardware DRAM puro se aproxima de US$ 500.000.

Crise da DRAM, explosão total

A raiz dessa tempestade de aumentos de preços está na contínua erosão da capacidade de produção de DRAM pelo HBM.

De acordo com dados divulgados, com a explosão da demanda por memória de alta largura de banda para treinamento e inferência de IA, a participação do HBM na capacidade de wafer de DRAM subiu de 2% em 2020 para estimados 25% em 2026. Samsung, SK Hynix e Micron, as três principais fabricantes, estão deslocando sua capacidade de produção de alta qualidade para HBM de alta margem. Entre 2025 e 2027, a proporção de wafers de HBM em relação ao total de wafers de DRAM será de 18%, 22% e cerca de 30%, respectivamente. Um wafer de HBM consome cerca de três vezes a capacidade de um wafer de DDR5. As três principais fabricantes reduziram ativamente pedidos de baixa margem para celulares e PCs, direcionando toda a capacidade para IA. Além disso, os provedores de nuvem em hiperescala bloqueiam a produção futura de wafers com contratos de longo prazo de vários anos, comprimindo ainda mais a oferta de DRAM padrão para o segmento de servidores.

E a rigidez do lado da oferta determina que a escassez dificilmente será aliviada no curto prazo.

Os processos avançados de DRAM dependem fortemente de máquinas de litografia EUV, cada uma custando cerca de US$ 200 milhões. O investimento em uma fábrica de wafers moderna chega facilmente a dezenas de bilhões de dólares, e mesmo em condições ideais, o ciclo de construção leva anos. A velocidade de expansão da capacidade está muito aquém do ritmo de crescimento da demanda por IA.

A Jefferies estima que, excluindo o impacto de fabricantes nacionais, o crescimento da oferta global de bits de armazenamento em 2026 será de apenas 7% a 8%. DRAM e NAND juntos podem ter um déficit de oferta de cerca de 150.000 a 200.000 wafers por mês. Em seu relatório de resultados do terceiro trimestre fiscal de 2026, a Micron Technology afirmou que, mesmo que a oferta do setor possa melhorar gradualmente em 2028, ainda é difícil determinar quando a oferta de armazenamento conseguirá acompanhar a demanda crescente contínua.

Além disso, a pressão já se espalhou dos centros de dados para o consumo final.

Asha Sharma, CEO da Xbox, declarou publicamente que, nos últimos dois anos, os custos de memória aumentaram cerca de cinco vezes, impactando diretamente a capacidade da empresa de produzir consoles de jogos suficientes para atender à demanda do mercado. A Apple também anunciou aumentos de preços para iPhone, Mac, iPad e outros produtos.

A equipe do analista Shawn Kim, do Morgan Stanley, afirmou diretamente que o aumento vertiginoso dos preços da memória e a escassez de oferta estão se transformando em um risco abrangente para a economia digital, "desde gargalos na infraestrutura de IA, passando pelas margens de lucro de hardware, acessibilidade de dispositivos, custos de nuvem, inflação, até o nível político".

Na lista de materiais de servidores, a mudança na proporção da DRAM é ainda mais reveladora. Em 2023, a DRAM representava cerca de 50% do custo total de um servidor; até meados de 2026, essa proporção subiu para 60% a 90%, com uma média de cerca de 75%. O preço da CPU não caiu, mas, em comparação com o aumento explosivo dos preços da memória, o aumento da CPU parece insignificante.

O mais irônico é que a memória comprada a alto custo tem uma taxa de utilização real baixa — dados de teste de hiperescala como Meta mostram que, em média, apenas cerca de metade da capacidade da memória nos centros de dados abriga "dados quentes" ativos, enquanto uma grande quantidade de dados frios ocupa recursos caros de DRAM por longos períodos.

Diante do alto custo e da escassez da DRAM, os players do setor começaram a buscar caminhos alternativos — não mais apenas acumulando hardware, mas usando meios técnicos para reduzir a dependência da DRAM.

AMD: Agendamento preditivo com IA, fazendo o flash "se tornar invisível" como memória

A AMD escolheu o caminho de entrada de software mais leve.

Em junho de 2026, a AMD anunciou a aquisição da MEXT, uma empresa de otimização de memória, com o objetivo central de introduzir uma tecnologia de hierarquização de memória baseada em IA, movendo dados frios da DRAM cara para NAND flash de baixo custo, expandindo a capacidade efetiva de memória a baixo custo.

Segundo informações, a MEXT foi fundada em 2023, e sua equipe fundadora tem um histórico impressionante — o cofundador e CEO Gary Smerdon foi o Chief Strategy and Product Officer da Fusion-io, um pioneiro na comercialização em larga escala de armazenamento flash. Há mais de dez anos, Apple e Meta Platforms eram seus principais clientes.

A MEXT lançou uma tecnologia de hierarquização de memória baseada em IA para lidar com o gargalo da eficiência da memória. Essa tecnologia pode mover dados de baixa frequência de acesso da DRAM cara para NAND flash, cujo custo por unidade de capacidade é muito menor, sem afetar a operação dos aplicativos.

O produto principal da MEXT é o Predictive Memory Engine, uma solução de hierarquização de memória puramente baseada em software: ele monitora continuamente os padrões de acesso de aplicativos na granularidade de páginas de memória, movendo automaticamente dados frios de baixa frequência para NAND flash — o custo por bit do flash é cerca de 1/55 do da DRAM; ao mesmo tempo, modelos de IA aprendem os padrões de acesso da carga de trabalho para prever quais páginas de dados serão chamadas em seguida, pré-buscando-as ativamente de volta para a DRAM antes que o aplicativo faça a solicitação, permitindo que o software leia os dados como se estivesse acessando diretamente a memória principal, garantindo assim que o desempenho não seja afetado.

Fonte: Nextplat

Todo o mecanismo é completamente transparente para o sistema operacional e aplicativos de nível superior, sem necessidade de modificar qualquer código de negócios ou adicionar hardware dedicado, podendo ser implantado em minutos.

Os dados oficiais mostram que essa solução pode aumentar a capacidade efetiva de memória do sistema em 2 a 4 vezes, reduzindo o custo geral da infraestrutura em cerca de 50%. Em cenários típicos como banco de dados de grafo Neo4j, simulação EDA e renderização de filmes, uma configuração com proporção de 1:1 entre DRAM e flash pode atingir cerca de 95% da taxa de transferência de uma configuração puramente DRAM, mas com um custo drasticamente reduzido.

A MEXT realizou testes comparativos anteriormente em servidores Dell e instâncias de nuvem AWS:

Gráfico comparativo de Dell/AWS com e sem MEXT Extended Memory (Fonte: Nextplat)

Desempenho e relação custo-benefício do banco de dados de grafo Neo4j com proporções de memória e flash de 1:1 e 1:3 ao usar a extensão de memória da MEXT:

Fonte: Nextplat

Embora a abordagem da MEXT não seja revolucionária — os conceitos de hierarquização de memória e migração de dados frios para mídias de armazenamento mais baratas existem há bastante tempo. No entanto, as tecnologias anteriores não conseguiram ser implantadas em grande escala nos centros de dados devido à precisão insuficiente dos algoritmos de previsão. Uma vez que a previsão falhe, quando o programa precisar dos dados e tiver que trazê-los do flash de volta para a DRAM, a latência será exposta diretamente, e a perda de desempenho será inaceitável.

O avanço da MEXT está em usar modelos de IA para fazer isso. Seu Predictive Memory Engine analisa continuamente os padrões de acesso à memória, usando IA para determinar quais páginas de dados têm maior probabilidade de serem usadas em seguida e, antes que o aplicativo faça a solicitação, move ativamente os dados do flash de volta para a DRAM.

Para a AMD, essa aquisição preenche uma peça-chave em suas capacidades de pilha completa. Além da CPU EPYC, GPU Instinct e pilha de software ROCm, a camada de eficiência de memória trazida pela MEXT permite que a AMD ofereça aos clientes uma solução completa, desde o chip até a programação de fluxo de dados, ajudando os clientes a reduzir o custo total de propriedade e diminuir a ociosidade da GPU "esperando por dados", ao mesmo tempo em que fortalece sua competitividade no mercado de infraestrutura de IA.

No dia do anúncio da aquisição, as ações da AMD subiram quase 7% durante o pregão, e o mercado expressou aprovação a esse caminho com seus votos.

Claro, é preciso dizer que a tecnologia da MEXT ainda precisa de tempo para ser testada quanto ao nível de implantação nos produtos de centro de dados da AMD. A diferença física de latência entre NAND flash e DRAM existe objetivamente, e se a previsão de IA no nível de software pode realmente preencher essa lacuna dependerá do desempenho real após a implantação em larga escala.

Apple: Grandes modelos no dispositivo, "armazenando" o modelo no flash

Enquanto os centros de dados sofrem com o custo da DRAM, o consumo final enfrenta a mesma restrição — a capacidade de DRAM em dispositivos como celulares é extremamente limitada, mas eles precisam suportar a inferência de grandes modelos no dispositivo. A resposta da Apple é fazer com que grandes modelos residam permanentemente no flash, carregando-os na memória conforme necessário.

O mais recente AFM 3 Core Advanced da Apple é um grande modelo no dispositivo com 20 bilhões de parâmetros. Se carregado inteiramente na DRAM da maneira tradicional, excederia o limite de memória dos dispositivos de consumo. A Apple resolveu esse problema com uma arquitetura de ativação esparsa: o modelo completo é armazenado inteiramente no NAND flash; durante a inferência, todos os pesos não são carregados, mas sim selecionados de uma vez os módulos de especialistas necessários para a inferência com base no prompt de entrada, carregando apenas um conjunto de trabalho de 1 a 4 bilhões de parâmetros na DRAM.

Diagrama da arquitetura do modelo AFM 3 Core Advanced

Diferente dos modelos tradicionais de MoE que alternam entre especialistas a cada token, causando transferência frequente de dados, a Apple adota um mecanismo de roteamento granular baseado em prompt, combinado com uma alta proporção de especialistas compartilhados residentes permanentemente na DRAM, reduzindo significativamente o número de trocas entre flash e memória, minimizando a latência de carregamento. Combinado com otimizações como poda em nível de instrução (IFP) e simplificação de camadas de Transformer, o pico de ocupação de DRAM do modelo de 20 bilhões de parâmetros é mantido entre 2 GB e 8 GB, equilibrando ainda mais a ocupação de memória e a eficiência computacional, resolvendo efetivamente o problema de alta ocupação de DRAM do MoE na implantação no dispositivo, permitindo que ele funcione suavemente em dispositivos terminais como iPhones, realizando a inferência no dispositivo de "grande modelo em memória pequena".

Esta arquitetura não é fruto de um esforço emergencial.

Na verdade, já em 2024, a equipe de pesquisa da Apple publicou o artigo "LLM in a Flash", que validou sistematicamente o caminho técnico de armazenar parâmetros de grandes modelos no flash e programá-los conforme necessário, reduzindo o custo computacional da nuvem e fornecendo suporte viável de arquitetura de memória para aplicações de IA no dispositivo, alcançando velocidades de inferência 4 a 5 vezes e 20 a 25 vezes mais rápidas que o carregamento ingênuo na CPU e GPU, respectivamente.

Quando o aumento de preço da DRAM se propaga do setor industrial para a eletrônica de consumo, essa solução suporta a experiência de IA no dispositivo e reduz a dependência do dispositivo em relação à DRAM de alta capacidade.

Em resumo, os dois caminhos da AMD e da Apple evoluem simultaneamente para centros de dados e dispositivos, respectivamente, mas apontam para a mesma conclusão: a hierarquia de memória para inferência de IA está sendo reestruturada, e o cache KV de baixa frequência, os pesos de modelo e os dados do dispositivo serão gradualmente movidos do HBM/DRAM caro para o NAND Flash/SSD, formando uma arquitetura de armazenamento em múltiplas camadas.

Essa mudança de arquitetura está criando efeitos de transmissão em várias camadas ao longo da cadeia industrial. De acordo com a análise da Citrini Research, o nível mais diretamente beneficiado são os fabricantes de NAND.

Marvell: Compressão de hardware + CXL, expandindo a capacidade da memória física

Se AMD e Apple optaram por otimizações de software e arquitetura, a Marvell escolheu um avanço no nível de hardware, baseando-se no protocolo de interconexão de alta velocidade CXL, usando tecnologia de compressão inline de hardware para aumentar diretamente a capacidade equivalente da DRAM física.

Em junho de 2026, a Marvell lançou a série de controladores CXL Structera — Structera X (controlador de expansão de memória) e Structera A (acelerador near-memory). Ambos os chips incorporam um módulo de compressão de hardware CDB (Compression-Decompression Block) desenvolvido internamente.

Segundo informações, ao gravar dados na DRAM, o módulo CDB comprime em tempo real usando um algoritmo LZ4 sem perdas personalizado; ao ler, descomprime simultaneamente. Todo o processo é concluído de forma independente no caminho da memória, sem consumir poder computacional da CPU host e completamente transparente para aplicativos de nível superior. Dependendo do tipo de dado, 1 GB de DRAM física pode atingir uma capacidade lógica equivalente de 2 a 3,64 vezes — em cenários de banco de dados híbrido, a taxa de compressão média pode chegar a 3,64:1, usando menos de um terço da memória física para atender às mesmas necessidades de negócios.

Além disso, essa solução oferece dois benefícios adicionais de redução de custos: primeiro, reutilização de memória antiga — o controlador Structera X suporta acesso a memória DDR4, permitindo que DDR4 aposentada seja integrada ao pool de memória CXL, reduzindo a necessidade de comprar DDR5 cara; segundo, pooling de memória — o protocolo CXL quebra a exclusividade da memória por CPU, permitindo que vários servidores compartilhem recursos de memória, absorvendo capacidade ociosa no sistema.

Com o preço atual à vista de DDR5 entre US$ 27 e US$ 37 por GB, um pool de memória de 12 TB custa quase US$ 500.000 apenas em hardware DRAM; com uma taxa de compressão de 3x, a quantidade de DRAM física necessária pode ser reduzida em dois terços, economizando mais de US$ 300.000 por pool.

Sandisk: Colocando NAND sob a GPU

A solução da Sandisk é ainda mais radical — reestruturando a arquitetura de memória dos chips de IA a partir do nível de封装.

A Sandisk está colaborando com a SK Hynix para promover a padronização do High Bandwidth Flash (HBF), tentando aproximar o NAND flash do núcleo de computação, criando uma nova camada de armazenamento entre HBM e SSD.

A patente da Sandisk propõe uma arquitetura de "NAND sob a GPU": empilhando NAND flash de alta capacidade diretamente abaixo da GPU ou acelerador de IA, cercado por pilhas de HBM, reduzindo significativamente a distância de transmissão de dados e aumentando a largura de banda de acesso ao flash. De acordo com o planejamento, o HBF será fisicamente compatível com HBM4, com capacidade 8 a 16 vezes maior que o HBM de mesmo volume, com vantagem significativa de custo, voltado para cenários de leitura intensiva, como inferência de contexto longo, cache KV e carregamento contínuo de pesos de modelo.

Essa tecnologia, chamada HBF (High Bandwidth Flash), posiciona-se entre HBM e SSD. Se HBM é como um "livro de referência" sobre a mesa, o HBF baseado em NAND é como uma "estante de livros" ao lado da GPU. HBM lida com dados que exigem resposta imediata, enquanto o NAND abaixo da GPU armazena dados maiores para leitura e escrita repetidas.

O objetivo da Sandisk é desenvolver HBF com largura de banda próxima à do HBM, oferecendo 8 a 16 vezes a capacidade do HBM a um custo semelhante. Em fevereiro de 2026, a Sandisk e a SK Hynix lançaram oficialmente uma aliança de padronização para as especificações HBF. A SK Hynix contribui com sua experiência em empilhamento, encapsulamento e interposição acumulada no HBM, enquanto a Sandisk traz sua capacidade de design de NAND e flash. Ambas planejam lançar as primeiras amostras de HBF no segundo semestre de 2026, com aplicação em dispositivos de inferência de IA no início de 2027. O objetivo é construir uma arquitetura de memória de três níveis: HBM para computação instantânea de latência ultrabaixa, HBF para dados de leitura repetida de alta capacidade e alta taxa de transferência, e SSD para armazenamento frio, cada nível com sua função específica.

Claro, a comercialização em larga escala do HBF ainda precisa superar vários obstáculos. A alta densidade térmica causada pelo empilhamento de chips de computação e NAND, os desafios de rendimento de bonding híbrido e roteamento complexo, e o ecossistema de software para programação hierárquica de dados quentes e frios exigirão tempo para serem aperfeiçoados gradualmente.

De acordo com estimativas da New Young Securities da Coreia, espera-se que o mercado de HBF se forme em 2027, crescendo para US$ 12 bilhões até 2030.

Para provedores de nuvem com dezenas de milhares de nós, isso significa uma enorme otimização de gastos de capital. Atualmente, o Structera é o primeiro controlador CXL do setor com compressão inline de hardware a ser produzido em massa, e as soluções técnicas relacionadas foram submetidas à padronização do Open Compute Project (OCP), com expectativa de maior alcance de adaptação no futuro.

Lições do passado: O caminho inacabado do 3D XPoint

Falando nisso, usar flash para expandir a memória principal não é novidade.

Já em 2015, Intel e Micron lançaram conjuntamente a tecnologia de armazenamento 3D XPoint, cuja visão acertava exatamente o ponto problemático do setor hoje — criar uma nova mídia de armazenamento com desempenho entre DRAM e NAND flash, suporte a endereçamento por byte, custo próximo ao flash, construindo uma nova camada entre a memória e o armazenamento tradicional.

Infelizmente, o 3D XPoint acabou não cumprindo sua promessa inicial.

O atraso no desenvolvimento do processo de fabricação fez com que seu custo igualasse o da DRAM, enquanto o desempenho era apenas algumas vezes mais rápido que o flash comum; além disso, a estratégia fechada da Intel de vinculá-lo aos seus processadores Xeon impediu que ele entrasse no mercado mainstream. Eventualmente, o projeto foi encerrado, e o negócio de flash da Intel foi vendido para a SK Hynix. Essa tecnologia, que já foi altamente esperada, tornou-se uma nota triste na história do armazenamento.

Se a Intel não tivesse desistido do 3D XPoint, quão lucrativo seria hoje? Infelizmente, a história não tem "ses".

Além disso, algumas startups nacionais que trabalham com soluções de computação integrada e pooling de memória provavelmente receberão mais atenção em breve. Afinal, no contexto de preços altos de DRAM e oferta comprimida, quem conseguir apresentar uma solução de otimização de memória realmente confiável pode conseguir a próxima rodada de investimento no mercado de capitais.

Considerações finais

Da falência do 3D XPoint aos múltiplos caminhos paralelos de hoje, a exploração da eficiência da memória pelo setor de armazenamento nunca parou.

AMD usando IA preditiva para programar dados quentes e frios, Apple usando ativação esparsa e armazenamento flash para comprimir a ocupação de memória no dispositivo, Marvell usando compressão de hardware para fazer a memória física render mais, Sandisk usando empilhamento 3D para colocar NAND sob a GPU — os caminhos técnicos das quatro empresas são diferentes, mas apontam para a mesma direção: a hierarquia de memória para inferência de IA está sendo reestruturada — dados quentes permanecem na DRAM e HBM garantindo desempenho, dados mornos e frios gradualmente descem para a camada flash para suportar capacidade, e mídias multicamada cooperam para equilibrar desempenho e custo.

A carestia da DRAM está forçando todo o setor a "subir a montanha". Mas é exatamente essa pressão que está gerando uma série de inovações tecnológicas impressionantes.

É inegável que o fosso físico de latência entre flash e DRAM sempre existirá, e o desempenho real de várias soluções ainda precisa ser verificado por implantação em larga escala. Mas o que é certo é que a era de simplesmente empilhar DRAM para resolver problemas está passando, e um sistema de memória mais eficiente e hierárquico já é a nova direção para o avanço do setor.

Fonte deste artigo: Semiconductor Industry Observation

Aviso de risco e isenção de responsabilidade

        Mercado tem riscos, invista com cautela. Este artigo não constitui aconselhamento de investimento pessoal e não considera os objetivos de investimento, situação financeira ou necessidades específicas de usuários individuais. Os usuários devem considerar se quaisquer opiniões, pontos de vista ou conclusões neste artigo são adequados à sua situação específica. Invista por sua própria conta e risco.

DRAM1,31%

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

Recompensa
curtir
Comentário
Repostar
Compartilhar

Comentário

Adicionar um comentário

Sem comentários

Tendências
Ver projetos
#
gStocksTokenizedStocksLive
4,81M Popularidade
#
StrongNonfarmPayrollsRekindleRateHikeFear
1,07M Popularidade
#
IsraelStrikesIranBTCPlunges
68,8K Popularidade
#
PredictWorldCupShare20000U
234,41K Popularidade
#
ETHBreaks1700
152,63M Popularidade

Fixado

sitemap

O mundo sofre com o DRAM há muito tempo.

Crise da DRAM, explosão total

AMD: Agendamento preditivo com IA, fazendo o flash "se tornar invisível" como memória

Apple: Grandes modelos no dispositivo, "armazenando" o modelo no flash

Marvell: Compressão de hardware + CXL, expandindo a capacidade da memória física

Sandisk: Colocando NAND sob a GPU

Lições do passado: O caminho inacabado do 3D XPoint

Considerações finais

Tendências

gStocksTokenizedStocksLive

StrongNonfarmPayrollsRekindleRateHikeFear

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

ETHBreaks1700

Fixado