Da declínio da Elpida à ascensão da Micron: reconstrução da lógica fundamental dos chips de armazenamento

2012 年 global top DRAM memory manufacturer Elpida officially declared bankruptcy.

Como uma antiga referência na indústria de semicondutores do Japão, a Elpida integrou tecnologias centrais dos três gigantes NEC, Hitachi e Mitsubishi, mesmo com o apoio financeiro do governo japonês, ainda assim não conseguiu reverter a tendência de declínio. Após acumular uma dívida de 430 bilhões de ienes e solicitar proteção contra falência, foi adquirida pela Micron Technology dos EUA por 200 bilhões de ienes, sendo completamente retirada do mercado após a integração e digestão.

Olhando para a trajetória do setor, Intel, Texas Instruments e Motorola já investiram na corrida pelo DRAM, mas posteriormente saíram do mercado. A indústria de memória semicondutora do Japão, que esteve no auge, colapsou em menos de vinte anos. Logo depois, empresas sul-coreanas assumiram a liderança, com Samsung e SK Hynix apoiadas por subsídios governamentais, usando estratégias agressivas de preços para varrer o mercado global, comprimindo a margem de todos os concorrentes.

A Micron, por sua vez, tornou-se a sobrevivente final e atualmente a única empresa nos EUA com capacidade de produção em larga escala de chips de armazenamento avançados. Com sede em Boise, Idaho, essa fabricante permaneceu na sombra do halo da Nvidia e TSMC, sem envolver-se em design de GPU ou fabricação de chips lógicos. Mas, com a explosão na demanda por poder de processamento de IA, um gargalo físico de décadas de existência tornou-se cada vez mais evidente: o tempo de espera dos unidades de cálculo pelos dados, que já ultrapassou o tempo de processamento, tornou-se um problema crítico. Essa dor do setor não tem solução por otimizações de software, apenas por avanços em hardware, que é justamente a área de foco da Micron há quarenta anos.

Gargalo do núcleo de cálculo de IA: a parede de memória, um problema comum na indústria

Sob a arquitetura de Von Neumann, unidades de GPU e TPU são fisicamente independentes da memória principal. As unidades de cálculo possuem SRAM de baixa capacidade integrada como cache on-chip, enquanto os pesos de grandes modelos e dados de entrada são armazenados principalmente fora do chip em DRAM, sendo transferidos por sinais elétricos através de camadas intermediárias.

Por exemplo, um modelo de linguagem com 70 bilhões de parâmetros, em precisão FP16, requer cerca de 140GB de memória física apenas para os pesos. Atualmente, as principais placas de IA de alta performance possuem entre 80GB e 192GB de VRAM, o que limita a execução de modelos de grande porte a múltiplas GPUs colaborando. Nos últimos dez anos, a potência de processamento dos chips cresceu exponencialmente, mas a largura de banda da memória, limitada pelo número de pinos físicos, frequência de sinais e limites de dissipação térmica, cresceu muito mais lentamente. Quando o desempenho de cálculo supera a capacidade de fornecimento de memória, as unidades de cálculo ficam ociosas aguardando dados, reduzindo drasticamente a eficiência do hardware.

A IA possui dois cenários principais: treinamento e inferência, com lógicas bastante distintas. Durante o treinamento, há processamento paralelo em grande escala, com dados sendo repetidamente acessados no cache do núcleo de cálculo, aumentando a intensidade de cálculo. O gargalo aqui é a velocidade de processamento, não a memória, caracterizando um cenário de alta densidade computacional, onde a vantagem da Nvidia é plenamente explorada.

Na inferência, a lógica é completamente diferente. Modelos de linguagem geram texto token por token usando mecanismos autoregressivos. Para evitar recomputar scores de atenção históricos, o sistema precisa montar um cache KV na VRAM. Por exemplo, com uma janela de contexto de cerca de 4096 tokens, uma solicitação de usuário ocupa aproximadamente 1,34GB de VRAM; duas unidades A100, descontando os pesos do modelo, deixam apenas 20GB disponíveis para o cache KV, suportando no máximo 14 requisições simultâneas. A densidade de cálculo na inferência é muito baixa, e o desempenho é totalmente limitado pela largura de banda da memória, sendo uma tarefa intensiva em acesso à memória, onde a taxa de transferência física do HBM determina diretamente o limite de throughput.

Do ponto de vista energético, ler um bit de HBM consome cerca de 10 a 20 pJ, enquanto uma operação de ponto flutuante FP16 consome apenas 0,1 pJ. O consumo de energia na movimentação de dados é de 100 a 200 vezes maior que o de cálculo. Em cenários de inferência em larga escala, se não houver otimizações no padrão de acesso à memória, grande parte da energia do data center será gasta na transmissão de dados, e não na computação real. Essa é uma das principais motivações da Micron continuar investindo em tecnologia HBM.

Fundamentos da Micron e sua posição na cadeia de suprimentos de IA

A Micron é um fabricante IDM típico, integrando toda a cadeia de produção: design de chips, fabricação de wafers, embalagem e testes, com foco exclusivo em chips de armazenamento, sem atuar em CPU ou GPU. Seus fabs concentram-se na área de memória, produzindo principalmente DRAM e NAND Flash, com uma fatia menor de NOR Flash.

Na estrutura de receita, mais de 70% vem de DRAM, enquanto NAND responde por 20-30%, e NOR Flash é uma fatia menor. O DRAM é o principal componente de memória de uso geral, enquanto NAND é o meio de armazenamento para SSDs, e NOR é usado em eletrônica automotiva e industrial, com funções de execução rápida de código de boot, sendo um nicho com alta importância.

A estratégia de negócios da Micron divide-se em quatro áreas principais: redes de computação para data centers e servidores; dispositivos móveis para smartphones; SSDs para armazenamento empresarial; e soluções embarcadas para automotivo e industrial.

Na cadeia de suprimentos de IA, Nvidia projeta GPUs, enquanto TSMC realiza a fabricação. A Micron, embora não participe dessas etapas, é fornecedora essencial de componentes para aceleradores de IA. Chips lógicos de GPU sozinhos não suportam grandes modelos; o gargalo na inferência é a largura de banda da memória, que exige integração estreita com memória de alta largura de banda, como HBM. A Micron, junto com SK Hynix e Samsung, fornece HBM, que é encapsulada em pacotes CoWoS da TSMC e integrada às GPUs para formar módulos completos de computação de IA. A GPU é o cérebro de IA, e o HBM é o canal de transmissão de dados de alta velocidade, ambos essenciais.

No mercado, Nvidia constrói sua vantagem competitiva com arquitetura e ecossistema, enquanto a Micron busca estabelecer barreiras por meio de processos de fabricação e tecnologias de empilhamento de pacotes. Cada geração de HBM com maior largura de banda depende de avanços em processos TSV e maior número de camadas empilhadas, com alta barreira de entrada tecnológica.

DRAM: a infraestrutura fundamental por trás do poder de IA

Na arquitetura tradicional de computadores, a DRAM serve como memória principal, adequada para o desacoplamento entre armazenamento de grande capacidade e baixa velocidade, e CPU de alta velocidade com cache pequeno. Durante a execução, os dados são carregados do disco para a DRAM, e a CPU realiza leituras e gravações com latência na faixa de nanossegundos e banda ultra alta, com o sistema operacional e processos de background residindo na memória. A DRAM é volátil, com perda de dados na ausência de energia, devido à fuga natural de carga dos capacitores internos, exigindo refresh contínuo. Sua célula básica é composta por um transistor e um capacitor.

Na era da IA, a aplicação da DRAM mudou radicalmente. O núcleo de cálculo migrou de CPU para GPU, e a DRAM deixou de ser apenas um módulo DDR na placa-mãe, passando a usar memória de alta largura de banda (HBM), empilhada verticalmente com tecnologia TSV, integrada ao GPU em um pacote de silício intermediário.

Atualmente, o valor central da DRAM concentra-se em duas dimensões: primeiro, o carregamento de pesos de grandes modelos, como o de 70 bilhões de parâmetros, que em FP16 requer 140GB de armazenamento, devendo estar na HBM antes da inferência; segundo, o uso dinâmico do cache KV, que armazena o histórico de contexto na geração de texto, onde maior comprimento de contexto aumenta o consumo de memória, limitando a capacidade de múltiplas requisições simultâneas em um servidor de alta performance. Para treinamento, o consumo de memória é ainda maior, pois além dos pesos, é necessário armazenar resultados intermediários, além de dados de otimizadores, podendo chegar a três ou quatro vezes o consumo na inferência.

Devido à parede de memória, o crescimento de desempenho de GPU está muito acima do aumento na largura de banda da memória, levando a frequentes períodos de ociosidade na inferência. A atualização da largura de banda do HBM é o fator decisivo para o throughput de servidores de IA, motivo pelo qual a Micron investe pesado em pesquisa e desenvolvimento de HBM.

Tríade do mercado de memória: Samsung, SK Hynix e Micron em competição diferenciada


O mercado global de DRAM é dominado por três gigantes: Samsung, SK Hynix e Micron, que juntos detêm cerca de 95% do mercado, cada uma com vantagens específicas.

Na evolução de processos, a Micron lidera, com avanços de nós como 1-alpha, 1-beta e 1-gamma, sendo a primeira a alcançar produção em massa de DRAM de alta densidade na nova geração, com maior rendimento por wafer e menor custo por bit, mantendo vantagem de margem. A Samsung, com processos abaixo de 14nm, enfrenta gargalos de yield, com ritmo de evolução mais lento; a SK Hynix está na mesma faixa de avanço.

Na área de HBM, a situação é diferente. A SK Hynix domina o mercado, com mais de 50% de participação, sendo fornecedora exclusiva para os primeiros lançamentos de GPUs da Nvidia, usando tecnologia MR-MUF de empilhamento múltiplo com vantagens em dissipação térmica e yield. A Micron, entrando mais tarde, focou na HBM3E, usando tecnologia TC-NCF, com maior complexidade de fabricação, menor capacidade instalada e participação de mercado inferior à SK Hynix. A Samsung, por sua vez, enfrentou problemas de calor e consumo na HBM3 e HBM3E, não atendendo aos testes da Nvidia, perdendo a janela de oportunidade no mercado de memória para IA, e agora aposta na HBM4 para tentar recuperar vantagem.

Em termos de eficiência energética, a Micron se destaca, com consumo 20% a 30% menor que os concorrentes na mesma largura de banda, o que, em escala de data centers com dezenas de milhares de cartões, reduz significativamente custos de energia e refrigeração. Além disso, sua tecnologia de processo 1-gamma LPDDR5X atinge 9,6 Gbps com redução de 30% no consumo, ideal para dispositivos móveis com IA local.

Quanto à capacidade, a Samsung mantém a liderança pelo volume, podendo dominar o mercado via estratégias de preço; a Micron, com menor capacidade instalada, evita competição por preço, focando em tecnologia premium, usando processos avançados e maior eficiência energética para consolidar sua posição.

Além de DRAM e HBM, a Micron também atua em NAND e NOR Flash, que representam sua segunda curva de crescimento. No mercado de NAND, ocupa a quarta ou quinta posição global, com fatia de 10% a 15%. No segmento de NOR Flash, abandona o mercado de consumo de baixo custo, focando em automotivo e industrial de alta gama, liderando o padrão de interface Octal xSPI, com certificação ASIL-D de segurança máxima, fornecendo por mais de dez anos via suas próprias fabs, atendendo clientes automotivos e industriais, evitando guerras de preços e obtendo margens premium pela confiabilidade e desempenho.

Valoração da Micron e comparação com pares

Atualmente, a ação da Micron está em torno de 600 dólares, com P/E de 21,44, e valor de mercado de aproximadamente 650 bilhões de dólares. Analistas de Wall Street estimam um preço-alvo de 400 a 675 dólares nos próximos 12 meses, com média próxima de 500 dólares, indicando uma avaliação relativamente subvalorizada.

Historicamente, chips de armazenamento são considerados setor de ciclo forte, onde a alta do ciclo leva à expansão de capacidade, seguida de excesso de oferta e queda de preços, com múltiplos de P/E entre 8 e 10. Hoje, a valorização da Micron aumentou bastante, principalmente por sua reestruturação de receita com HBM: enquanto o DDR tradicional sofre com oscilações de mercado, o HBM, com produção sob encomenda e contratos de fornecimento de longo prazo com Nvidia e outros, tem sua capacidade de produção totalmente vendida até 2026, mudando o fluxo de receita de ciclo para receita contratual estável, sendo reclassificado como fornecedor de infraestrutura de IA, elevando seu múltiplo de avaliação.

Com apoio de políticas e fundos, como a Lei de Chips dos EUA, a Micron, como a única fabricante avançada de armazenamento no país, beneficia-se da cadeia de suprimentos local, recebendo um prêmio de liquidez.

Se compararmos com pares, a SK Hynix tem P/E de apenas 12,17, mesmo com mais da metade do mercado de HBM e fornecendo para Nvidia, mas sofre influência de sua estrutura de controle por conglomerados sul-coreanos, com baixa distribuição de dividendos e recompra de ações. Além disso, cerca de 40% de sua capacidade de DRAM está na China, na fábrica de Wuxi, sujeita a restrições de exportação de equipamentos estrangeiros, com risco de migração de capacidade e depreciação de ativos, o que limita sua avaliação.

A Samsung, com P/E de 34,18, não reflete uma avaliação premium, mas sim uma baixa no lucro líquido, devido à sua diversificação em armazenamento, foundry, smartphones e displays. Seus negócios de foundry, que investem pesado em processos avançados, ainda apresentam baixa eficiência e prejuízos recorrentes, mantendo o preço das ações estável por suporte de fundos locais, elevando o múltiplo.

A visão dos analistas é clara: a estratégia da Micron de aumentar a participação de HBM na receita, elevando a margem bruta; contratos de fornecimento de longo prazo que garantem receita; foco na capacidade de HBM para reduzir oferta de DRAM comum e sustentar aumentos de preço; e a entrada na fase de retorno de capital com a produção em massa do processo 1-gamma, melhorando fluxo de caixa livre. Contudo, o ciclo do setor de armazenamento ainda não desapareceu completamente, sendo suavizado pelo contrato de longo prazo de HBM; se os investimentos em infraestrutura de IA desacelerarem ou a Samsung superar tecnicamente a HBM4, o equilíbrio de oferta e demanda poderá se reverter.

Critérios de avaliação do HBM e a próxima geração de interconexões CXL

Cada fabricante avalia a qualidade do HBM com base em três parâmetros principais:

Primeiro, a taxa de pinos, que determina a largura de banda de transmissão de dados. O HBM usa micro-bumps de alta densidade para interligar com a GPU, e a taxa de pinos indica a quantidade de dados transmitidos por segundo por canal. O padrão do setor fixa a largura total do barramento em 1024 pinos, e a largura de banda total segue uma fórmula de conversão fixa. A Micron HBM3E tem uma taxa nominal de 9,2 Gbps, com largura de banda por pilha de cerca de 1,2 TB/s, superior ao padrão de 8,0 a 8,5 Gbps dos concorrentes. No entanto, aumento na taxa de transmissão implica maior consumo de energia e risco de distorção do sinal, com maior geração de calor devido à inversão de voltagem, podendo afetar a estabilidade da transmissão.

Segundo, a eficiência energética, medida em pJ/bit, onde valores menores indicam menor consumo. Como o HBM é empacotado junto à GPU, alto consumo de energia aumenta a dissipação térmica, forçando a GPU a reduzir frequência e desempenho. A Micron, com seu processo 1-beta de baixa voltagem, consegue cerca de 30% de eficiência energética superior aos concorrentes, reduzindo custos de energia e refrigeração em data centers.

Terceiro, resistência térmica e tecnologia de encapsulamento, que formam a principal barreira competitiva. A temperatura de operação depende do consumo de energia e da resistência térmica do pacote. Estruturas empilhadas de múltiplas camadas dificultam a condução de calor, e materiais de preenchimento entre camadas influenciam a resistência térmica. Os principais processos são TC-NCF e MR-MUF. A Micron e Samsung usam TC-NCF, que é mais suscetível a bolhas e maior resistência térmica; a SK Hynix usa MR-MUF, que preenche as lacunas com material líquido, sem bolhas, com resistência térmica mais baixa.

Resistência térmica elevada provoca efeitos em cadeia: aumento da temperatura ambiente acelera fuga de carga dos capacitores, levando a refreshes mais frequentes e redução na largura de banda efetiva; além disso, a quantidade de camadas empilhadas é limitada pela tecnologia de encapsulamento, e mais camadas aumentam a estresse mecânico e a expansão térmica, dificultando o controle de yield.

Ao estudar as especificações técnicas do HBM, o foco deve estar em três pontos: a voltagem de teste para a taxa nominal, o número de camadas empilhadas e a capacidade de cada chip, além do cliente final que fornece o fornecimento. A validação final ocorre na aceitação do cliente, que comprova a qualidade técnica.

CXL: o próximo campo de batalha para pools de memória em clusters de IA


O HBM resolve o gargalo de largura de banda dentro de uma GPU, mas à medida que clusters de IA expandem para milhares de GPUs, a alocação ineficiente de memória e a inconsistência de cache entre dispositivos tornam-se novos problemas, levando ao desenvolvimento do tecnologia CXL.

No data center tradicional, a memória física está vinculada a um único servidor, sem compartilhamento entre dispositivos, causando problemas como cache KV cheio em alguns nós e memória ociosa em outros, com taxas de ineficiência de até 20-30%, gerando desperdício de capital. Além disso, a sincronização de cache entre CPU e GPU é lenta e complexa, exigindo intervenção de software e código, com baixa tolerância a falhas.

A origem desses problemas está na limitação do protocolo PCIe, que só suporta transferência de grandes blocos de dados, sem mecanismos de cache ou coerência. O protocolo CXL, baseado na camada física do PCIe, reestrutura a lógica para otimizar a semântica de memória e a coerência de cache, usando hardware para manter automaticamente o estado do cache, sincronizando dados em nanossegundos, sem intervenção de sistema ou código. Utiliza formato de transmissão fixo FLIT, simplificando a análise de dados, e reduzindo a latência de acesso remoto à memória para cerca de 170 a 250 nanossegundos.

Além disso, o CXL permite montar switches para criar pools de memória compartilhada, desvinculando a memória de servidores físicos, e possibilitando a alocação dinâmica de recursos ociosos em microssegundos, resolvendo de vez o problema de memória ociosa.

A Micron lançou módulos de expansão de memória CXL Type 3, baseados em sua tecnologia DDR5 própria, formando uma combinação de alto e baixo desempenho com HBM: HBM para alta largura de banda e baixa latência em uma única placa; CXL para expansão de memória de grande capacidade entre nós, suportando pools de recursos de TB. No mercado, dados quentes permanecem na HBM local, enquanto dados frios de longo prazo são descarregados para pools CXL, usando pré-breques para mascarar a latência de transmissão, viabilizando modelos de contexto ultra longo com milhões de tokens.

Na competição, o mercado de HBM está se tornando cada vez mais acirrado, enquanto a tecnologia CXL ainda está em fase inicial de desenvolvimento, com o cenário de mercado ainda indefinido. Como fabricante de armazenamento puro, a Micron não tem cargas históricas, e seus módulos CXL usam processos DDR5 padrão, sem necessidade de empilhamento complexo, com controle de qualidade e capacidade de produção gerenciáveis, podendo conquistar vantagem competitiva inicial.

Fundamentos econômicos e limites tecnológicos do setor

A fabricação de wafers avançados de DRAM custa entre 150 e 200 bilhões de dólares, com uma única máquina de litografia EUV custando mais de 200 milhões de dólares, além de sistemas de energia e refrigeração. Com ciclo de depreciação de cinco anos, o custo diário de equipamento é elevado, e a utilização deve superar 95% para amortizar os custos. Quando a demanda diminui, os fabricantes enfrentam dificuldades para reduzir a produção, recorrendo a guerras de preços, uma das raízes do ciclo forte na indústria de armazenamento.

O alto custo do HBM também decorre de limitações físicas: empilhamento vertical de múltiplas camadas de chips de DRAM, onde qualquer defeito em uma camada leva à perda do módulo inteiro, causando queda exponencial na taxa de yield com o aumento de camadas. Mesmo com taxas de yield de 95% para chips individuais e 99% para soldagem entre camadas, um pacote de 8 camadas de HBM3E tem um yield total de aproximadamente 61%, e 12 camadas de HBM4 têm yield inferior a 50%. A melhora no processo de encapsulamento líquido da SK Hynix e na fabricação da Micron visa aumentar o yield geral e reduzir custos, mas essa melhora não é rápida, mantendo preços de HBM relativamente altos no curto prazo.

A tecnologia PIM (Processing-in-Memory), que propõe integrar unidades de processamento leves na base do chip de memória há duas décadas, ainda não é comercializada em larga escala devido a conflitos de processos físicos. Os transistores de DRAM precisam de baixa fuga de carga e alta tensão de limiar para garantir armazenamento, o que torna sua velocidade de comutação lenta; por outro lado, chips lógicos de CPU e GPU buscam baixa tensão de limiar e alta frequência de comutação, com maior fuga de carga. Tentar integrar unidades de processamento na DRAM compromete o desempenho, que fica muito atrás de GPUs, além de acelerar o calor de operação e a fuga de carga, prejudicando a confiabilidade dos dados.

A estratégia intermediária atual é integrar unidades de IA leves na camada inferior do HBM, usando processos avançados de logic da TSMC, evitando as limitações do processo de DRAM, mas ainda longe de uma solução verdadeiramente integrada de armazenamento e computação.

A longo prazo, a estratégia da Micron é clara: usar o processo 1-gamma para reduzir o custo por bit, mantendo margens elevadas com HBM, e garantir receita estável por contratos de longo prazo. Ainda assim, o setor enfrenta gargalos estruturais: a miniaturização do plano de DRAM aproxima-se do limite físico, e a taxa de yield de empilhamento aumenta com o número de camadas, dificultando uma solução de armazenamento e processamento integrada no curto prazo. A competição futura não dependerá apenas de avanços em nós tecnológicos, mas de melhorias em yield, encapsulamento e integração de sistemas, formando uma barreira profunda construída por décadas de investimento em tecnologia.

A análise do setor revela que a evolução dos chips é um ciclo contínuo: aumento de capacidade para compensar falta de desempenho, mas isso limita a yield; mudança para arquiteturas interconectadas traz atrasos na movimentação de dados; empilhamento de chips resolve problemas de interconexão, mas gera desafios de dissipação térmica, que por sua vez prejudicam a yield. Em última análise, a competição do setor de chips retornará à ciência dos materiais, e tecnologias disruptivas como fotônica, materiais semicondutores bidimensionais e arquiteturas de computação revolucionária podem ser a chave para superar os limites físicos atuais.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar