No concurso de IA com parâmetros que ultrapassam o trilhão de variáveis, embora o poder de cálculo da GPU seja certamente o foco, um componente mais oculto, mas que decide o limite máximo, está se tornando o ponto estratégico de disputa na indústria — a memória de alta largura de banda (High Bandwidth Memory, HBM). Se compararmos a GPU a um motor de alta performance com milhares de cilindros, então o HBM é o sistema de combustível que fornece dados continuamente para ele. Se o fornecimento de combustível não acompanhar, mesmo o motor mais potente só poderá funcionar em vazio.

A indústria geralmente reconhece que o gargalo de poder de cálculo de IA não está mais limitado às unidades de processamento em si, mas principalmente na eficiência de transporte de dados. Dados mostram que, em arquiteturas tradicionais de computação, o consumo de energia na movimentação de dados pode representar entre 60% a 80% do consumo total do sistema. Em cenários de inferência, a ociosidade do poder de cálculo da GPU pode chegar a 99%. Por trás disso, um fator limitador chave é a largura de banda da memória.

A HBM, com sua tecnologia de empilhamento 3D e vias de silício (TSV), consegue alcançar uma largura de banda e eficiência energética muito superiores às memórias tradicionais, tornando-se padrão em aceleradores de IA de gigantes como NVIDIA, AMD, Google, entre outros.

Princípios técnicos: Como a HBM reconstrói o canal de dados entre GPU e memória

De “carro de corrida plano” a “elevador vertical”

A HBM não é uma tecnologia de armazenamento totalmente nova, mas um conjunto de especificações que definem “como conectar DRAM com largura de banda extremamente alta” através de interfaces e encapsulamentos. Sua tecnologia central pode ser dividida em três níveis:

Empilhamento 3D — empilhar chips de DRAM em múltiplas camadas (atualmente, entre 8 e 12 camadas, com a HBM4 avançando para 16), aumentando exponencialmente a densidade de armazenamento e o número de canais paralelos na mesma área física.

Vias de silício (TSV) — dentro de cada chip de DRAM, microfuros de diâmetro de apenas 5-10 micrômetros são gravados, preenchidos com material condutor formando canais verticais, conectando as camadas de forma multibilionária. Em contraste com as rotas tradicionais de PCB, que podem chegar a centímetros ou metros, as TSV reduzem a distância de transmissão de sinais para micrômetros, diminuindo drasticamente atenuação e latência.

Interposer de silício — a pilha de HBM é conectada por microprojeções ao interposer de silício, que por sua vez conecta-se ao chip GPU/CPU a uma distância extremamente curta, formando um módulo encapsulado unificado. Essa estrutura é realizada por processos avançados de empacotamento como CoWoS, que integram componentes em uma tecnologia de embalagem 2.5D de alta densidade.

A grande inovação dessa arquitetura está na largura do barramento. Uma pilha de HBM geralmente possui uma largura de 1024 bits, podendo chegar a 2048 bits na HBM3E. Por exemplo, a HBM3E da SK Hynix, com capacidade de 24GB por chip, oferece uma largura de banda superior a 1TB/s. Em comparação, soluções tradicionais de GDDR possuem uma largura de 32 bits (por chip) ou 384 bits (com múltiplos chips), com capacidades e taxas de transferência muito menores.

A lógica de design da HBM é “largo e lento”: ela troca uma velocidade de operação mais baixa por uma quantidade enorme de canais paralelos, cada um operando em frequências relativamente baixas, o que melhora significativamente a eficiência energética. Já a GDDR segue uma lógica “estreita e rápida”: usa frequências mais altas e menos canais para alcançar maior largura de banda. Essas filosofias de projeto atendem a diferentes cenários: a HBM busca máxima throughput, enquanto a GDDR equilibra desempenho e custo.

HBM vs GDDR6: um duelo entre “largo e lento” e “estreito e rápido”

HBM e GDDR6 pertencem à família de memórias DRAM, ambas destinadas a fornecer canais de acesso a dados para GPUs, mas diferem fundamentalmente em objetivos de projeto, desempenho e estrutura de custos.

Largura de banda: a HBM3E de um único empilhamento pode atingir 1,2TB/s, enquanto a próxima geração HBM4 deve ultrapassar 2,0TB/s. A GDDR6X, na sua capacidade máxima, chega a cerca de 1TB/s por placa. Em termos de consumo energético por unidade de largura de banda, a HBM é muito mais eficiente, o que se traduz em vantagens de custo operacional em centros de dados de IA.

Consumo e latência: devido às vias TSV extremamente curtas, a HBM reduz o consumo energético em cerca de 30% em relação à GDDR5. Quanto à latência, a GDDR depende de rotas PCB e comunicação com a GPU, com atrasos na ordem de microssegundos; a HBM, por estar encapsulada próxima ao chip GPU, apresenta latência na faixa de nanosegundos. Apesar de, em cenários de throughput extremo, a latência aleatória da HBM ser um pouco maior, para acessos massivos e paralelos típicos de treinamento e inferência de IA, o throughput é o fator mais crítico.

Custo: esse é o maior ponto fraco da HBM. O custo por GB de HBM ultrapassa US$25, enquanto a GDDR6 fica na faixa de US$5-8. A participação da HBM no custo total de um GPU de alta ponta pode chegar a 60-80%. Em termos de custo por largura de banda, a GDDR6 muitas vezes oferece uma relação melhor, especialmente em aplicações onde o pico de largura de banda não é a prioridade máxima.

Resumindo, a escolha entre HBM e GDDR é uma questão de trade-off entre desempenho de limite e custo. A HBM é essencial em cenários onde “é preciso atingir um determinado limite de largura de banda para que o sistema funcione” — como inferência de modelos com centenas de bilhões de parâmetros. A GDDR6 é mais adequada para “obter desempenho aceitável ao menor custo”, como na implantação de modelos médios ou pequenos (7 a 13 bilhões de parâmetros).

Elas não são substitutas, mas rotas paralelas para diferentes necessidades. Contudo, na IA de treinamento e inferência em larga escala, a vantagem da HBM está gradualmente empurrando a GDDR para fora do núcleo da competição.

O impasse da “parede de memória”: por que quanto maior o modelo de IA, maior a demanda por HBM de forma exponencial

Para entender o crescimento explosivo na demanda por HBM, é preciso voltar a um dos principais gargalos do paradigma de cálculo de IA — a “parede de memória” (Memory Wall).

Crescimento do poder de cálculo versus largura de banda

Nos últimos trinta anos, o poder de processamento dos processadores cresceu seguindo a Lei de Moore, dobrando aproximadamente a cada 18-24 meses; porém, a largura de banda da memória evoluiu muito mais lentamente. Estudos sobre IA e a parede de memória mostram que o poder de cálculo de modelos de IA cresce cerca de 3 vezes a cada dois anos, enquanto a largura de banda da memória aumenta apenas 1,6 vezes, e a largura de banda de interconexões ainda menos. Isso significa que, a cada avanço de capacidade de processamento, a eficiência na movimentação de dados se deteriora.

Essa contradição é especialmente aguda na inferência. Durante o treinamento, operações de matriz (GEMM) dominam, com alta densidade de cálculo e uma relação de operações por byte de mais de 100 FLOPs/byte; na inferência, o foco é em multiplicações matriz-vetor (GEMV), com uma relação de menos de 2 FLOPs/byte. Quanto menor essa relação, mais o desempenho do sistema depende da largura de banda de memória, reforçando o efeito da “parede de memória”.

Carga de transporte de dados em modelos grandes

Na inferência de modelos grandes, o fluxo de dados é intenso: a cada token gerado, é necessário carregar todos os parâmetros do modelo da memória para o núcleo de cálculo. Por exemplo, o Llama 3 de 70B parâmetros, em FP16, ocupa cerca de 140GB de memória. Para gerar um token, esses 140GB precisam ser transferidos uma vez. Para uma geração de 30 tokens por segundo, a largura de banda entre memória e processador deve suportar aproximadamente 4,2TB/s.

Essa demanda já está próxima ou até além do limite de hardware atual. A NVIDIA H100 SXM5, com sua HBM, oferece cerca de 3,35TB/s de largura de banda. Mesmo as GPUs mais avançadas enfrentam esse limite ao lidar com modelos de 70B. Com modelos de centenas de bilhões ou trilhões de parâmetros, a necessidade de largura de banda cresce de forma linear ou até superlinear.

Capacidade e restrições duais

A capacidade de memória também é crucial. Se o modelo excede a capacidade de uma única GPU, é preciso dividir o modelo entre várias GPUs — o que acarreta comunicação frequente entre elas, podendo reduzir a eficiência geral. Assim, a importância da HBM está na combinação de largura de banda (que limita a velocidade de geração e a latência) e capacidade (que determina se o modelo cabe em uma única GPU ou se há necessidade de paralelismo).

O caminho atual é claro: a HBM está se tornando padrão em GPUs de alta performance para IA. Segundo dados da TrendForce, a demanda por HBM deve crescer mais de 130% em 2025, e mais de 70% em 2026, consolidando seu papel como componente central na cadeia de poder de IA, saindo do nicho de gráficos para se tornar elemento fundamental na infraestrutura de IA.

Impacto na cadeia produtiva: da escolha tecnológica ao desequilíbrio de mercado de centenas de bilhões

Crescimento do mercado

O mercado de HBM está crescendo mais rápido do que muitas previsões iniciais. Segundo dados da SEMI China, até 2026, o mercado de HBM deve atingir US$546 bilhões, representando quase 40% do mercado total de DRAM. A Micron projeta uma taxa de crescimento anual composta de cerca de 40%, elevando o mercado de HBM de aproximadamente US$35 bilhões em 2025 para US$100 bilhões em 2028 — superando o tamanho do mercado total de DRAM em 2024.

Restrições de oferta

Porém, a demanda explosiva contrasta com a capacidade de produção limitada. Apesar de fabricantes como Samsung, SK Hynix e Micron terem direcionado cerca de 70% de sua capacidade adicional para HBM, a oferta total ainda está atrasada em 50-60%. A produção de HBM é altamente complexa, envolvendo processos avançados de fabricação de DRAM (com nós de 1β nm ou menores), além de TSV, microprojeções, empacotamento em wafer, entre outros.

A capacidade de produção de encapsulamento, especialmente na plataforma CoWoS da TSMC, deve crescer para mais de 125 mil unidades por mês até o final de 2026, um aumento de cerca de 79%, mas ainda insuficiente para atender às demandas de clientes como NVIDIA, AMD e Broadcom.

Riscos na cadeia de suprimentos e impacto nos preços

A escassez de capacidade se reflete nos preços. Em 2025, o preço do HBM3E subiu entre 5% a 10%. Além disso, a concentração de produção faz com que a oferta de memórias DDR para consumo também diminua, elevando seus preços até o final de 2026. A escassez de HBM está pressionando toda a cadeia de memória.

Em junho de 2026, Jensen Huang confirmou que Samsung, SK Hynix e Micron já começaram a fornecer em grande escala chips HBM4, com a Samsung liderando a produção desde fevereiro de 2026. Mesmo assim, a demanda supera a oferta em cerca de 50% para 2025-2026. A relação entre oferta e demanda continuará tensa nos próximos anos, com expansão de capacidade, gargalos de encapsulamento e crescimento acelerado da demanda por IA formando um cenário de equilíbrio difícil de alcançar a curto prazo.

Conclusão

Desde a inovação tecnológica na base, passando pela dependência de IA, até o desequilíbrio na cadeia de oferta e demanda, a HBM evoluiu de uma ramificação da tecnologia de memória para um ponto central na competição por infraestrutura de IA.

A indispensabilidade da HBM na formação de modelos de treinamento e inferência de IA decorre de uma lógica fundamental: quando o tamanho do modelo ultrapassa um certo limite, a largura de banda deixa de ser uma “opção de otimização” e passa a ser um “fator de habilitação” — abaixo de um limiar, o sistema não consegue operar de forma eficiente. Embora a GDDR6 tenha vantagem de custo, sua arquitetura de canais estreitos e alta frequência não consegue igualar a densidade de operações de modelos trilionários. Essa diferença estrutural define que, no núcleo da corrida por poder de IA, HBM e GDDR não são simplesmente concorrentes, mas rotas distintas para diferentes níveis de necessidade.

Para o futuro, a produção de HBM4, com largura de banda superior a 2TB/s por empilhamento, a maturidade de empilhamento de 16 camadas e a introdução de novas técnicas de encapsulamento, deve ampliar ainda mais os limites de desempenho da HBM. No entanto, fabricantes como Huawei já exploram caminhos alternativos, como otimizações algorítmicas que reduzem a dependência de HBM, arquiteturas de memória com SRAM e integração de memória e computação. A capacidade da HBM de manter sua liderança tecnológica e de suprimento durante ciclos de expansão será um dos principais fatores a monitorar na cadeia de poder de IA nos próximos anos.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
GateIPOAccessSpaceX
5.29M Popularidade
#
AnthropicReleasesFable5Model
642.76K Popularidade
#
IsraelStrikesIranBTCPlunges
56.93K Popularidade
#
MyGateTradeStory
10.32K Popularidade
#
SpaceXIPOAttractsOver250BillionInOrders
1.39M Popularidade

Fixado

HBM vs GDDR: Como a memória de alta largura de banda pode superar o gargalo de "memória" no treino e inferência de IA

Princípios técnicos: Como a HBM reconstrói o canal de dados entre GPU e memória

HBM vs GDDR6: um duelo entre “largo e lento” e “estreito e rápido”

O impasse da “parede de memória”: por que quanto maior o modelo de IA, maior a demanda por HBM de forma exponencial

Impacto na cadeia produtiva: da escolha tecnológica ao desequilíbrio de mercado de centenas de bilhões

Conclusão

Tópicos em destaque

GateIPOAccessSpaceX

AnthropicReleasesFable5Model

IsraelStrikesIranBTCPlunges

MyGateTradeStory

SpaceXIPOAttractsOver250BillionInOrders

Fixado