Ajuste no setor de armazenamento, foi uma eliminação injusta ou uma colisão de lógica?

Esta semana, um novo lançamento tecnológico da Google deixou o setor de armazenamento atordoado. Usando a Micron Technology como exemplo, tivemos uma queda de cinco dias consecutivos, e as ações relacionadas na bolsa A também sofreram ajustes.

O TurboQuant, que afirma poder reduzir em 6 vezes a necessidade de armazenamento do KV Cache em textos longos e aumentar a velocidade de inferência em 8 vezes, fez com que as ações de armazenamento despencassem, e muitos começaram a clamar que “a demanda por armazenamento em IA vai desaparecer”.

Mas, se você parar para pensar, isso não lhe parece um pouco familiar? Quando a tecnologia GQA foi lançada em 2023, também houve quem dissesse que a demanda por KV Cache iria cair pela metade, e que o armazenamento iria esfriar; em 2024, quando a PagedAttention apareceu, o mesmo discurso ressurgiu.

E o que aconteceu? Nos últimos dois anos, o consumo de tokens pelos grandes modelos globais aumentou mais de 10 vezes, e a demanda por armazenamento, ao contrário, só aumentou.

01 A verdade sobre o TurboQuant: compressão nem sempre é negativa

Muitas pessoas pensam que uma compressão de 6 vezes significa que a demanda por armazenamento vai cair 6 vezes. Isso não é um golpe mortal para os fabricantes de armazenamento?

Se você pensar assim, está invertendo a lógica dessa tecnologia.

Simplificando, o KV Cache é o que os grandes modelos utilizam para armazenar o conteúdo de diálogos anteriores durante a inferência, caso contrário, eles esquecem o que foi dito antes. Isso consome a maior parte da demanda de armazenamento na fase de inferência. A compressão feita pelo TurboQuant visa resolver o principal gargalo da inferência em IA — o muro da memória.

Atualmente, o contexto dos grandes modelos já cresceu de 4K para 128K, e até mesmo níveis de milhões e dezenas de milhões de requisições simultâneas estão aumentando. Se não houver compressão, mesmo que acumulemos todo o HBM disponível, não será suficiente, e o custo de movimentação de dados é muito maior do que o custo de computação, o que retarda a velocidade da inferência.

Portanto, a compressão é para permitir que a inferência com contextos longos e alta concorrência funcione, não para reduzir o uso de armazenamento.

Além disso, isso não é nada novo; a indústria já começou a iterar.

O GQA de 2023 comprimido o KV Cache em 4-8 vezes; em 2024, a quantização e a PagedAttention comprimiram em 2-4 vezes, e sempre houve quem dissesse que a demanda por armazenamento iria desaparecer. E o que aconteceu?

Após cada compressão, todos se sentiram mais à vontade para fazer contextos mais longos e permitir mais concorrência. Inferências de textos longos que antes eram inviáveis agora se tornaram possíveis, e a nova demanda preencheu o espaço economizado pela compressão, e até mesmo isso não foi suficiente.

Isso é o que na economia chamamos de efeito Jevons. O exemplo mais típico é a compressão de vídeo: quando surgiram o H.264 e o H.265, a necessidade de armazenamento por unidade de vídeo caiu pela metade, e, como resultado, as pessoas começaram a produzir vídeos de alta definição em 4K e 8K, e agora, um vídeo longo de 10 minutos facilmente ocupa mais de 10GB. No final, a demanda total por armazenamento de vídeo aumentou dezenas de vezes.

O TurboQuant segue a mesma lógica. Uma compressão de 6 vezes pode parecer significativa, mas olhe para o crescimento atual da demanda: em fevereiro de 2026, o consumo de tokens pelos grandes modelos globais será 10 vezes maior do que no mesmo período do ano passado. Até 2028, a quantidade de dados global deve atingir 394ZB, mais de 5 vezes a de 2020. Essa compressão é irrelevante frente ao crescimento exponencial da demanda.

Mais importante ainda, a redução de custos causada pela compressão liberará uma nova demanda.

Antes, a inferência com contextos longos era muito cara, e muitas empresas não podiam arcar com isso; agora que os custos caíram, elas se sentem mais à vontade para usar. Os provedores de nuvem também podem relaxar as restrições de contexto e concorrência, e, no final, a demanda total por armazenamento será ainda mais ampliada.

Em resumo, o TurboQuant é uma otimização do lado da oferta, não um desaparecimento do lado da demanda. É uma otimização para aliviar o muro da memória em um contexto de escassez de oferta de HBM.

A curto prazo, a lacuna entre a oferta e a demanda de HBM continua a existir, e, devido à liberação de nova demanda, essa lacuna pode aumentar.

02 Ciclo de longo prazo de prosperidade, colidindo com o cisne negro geopolítico

Na verdade, antes da volatilidade do TurboQuant, a indústria de armazenamento já tinha entrado em um ciclo de super prosperidade, com a oferta e a demanda em um equilíbrio extremamente apertado.

Do lado da demanda, a explosão da IA já levou a necessidade de armazenamento a alturas sem precedentes.

No passado, a demanda por armazenamento dependia de PCs e smartphones. Agora, servidores de IA e aplicações multimodais tornaram-se o novo motor.

O Seedance 2.0 da ByteDance, que consome tokens em dezenas de vezes a quantidade de texto para um vídeo de 10 minutos, e a nova arquitetura da NVIDIA, que elevou a demanda por NAND de TB para PB, fazendo com que a capacidade por armário aumentasse 5 vezes.

Os gigantes da internet globais estão investindo loucamente em infraestrutura de computação. Em 2026, os gastos de capital dos oito maiores CSPs devem aumentar em 25%, alcançando 500 bilhões de dólares. A maior parte desse investimento está sendo direcionada para a infraestrutura de IA, sendo o armazenamento uma das necessidades mais fundamentais.

E do lado da oferta, os três maiores fabricantes de armazenamento no exterior — Samsung, SK Hynix e Micron — já controlam rigorosamente sua capacidade de produção.

Após a última rodada de perdas, eles estão expandindo a produção de forma cautelosa, e toda a nova capacidade está sendo concentrada em produtos de alta margem como HBM e DDR5, enquanto a capacidade de DRAM e NAND de baixo custo está encolhendo.

E o mais grave é que a capacidade de HBM de alta qualidade não pode ser expandida.

Construir uma sala limpa leva de 8 a 12 meses, e a escalada da taxa de produção leva ainda mais tempo.

Atualmente, os estoques dos três principais fabricantes estão em níveis historicamente baixos, entre 3 a 5 semanas. Isso significa que, uma vez que seus estoques se esgotem, a próxima remessa ainda não terá sido produzida, e a oferta está rígida ao extremo.

Esse equilíbrio apertado entre oferta e demanda já fez com que o preço do armazenamento subisse por vários meses.

O último relatório financeiro da Micron é a melhor prova disso: no segundo trimestre do FY26, sua receita atingiu 23,86 bilhões de dólares, um aumento de 196% em relação ao ano anterior, e o lucro líquido foi de 14,02 bilhões de dólares, um aumento de 686%. A margem bruta operacional chegou a 69%, demonstrando o poder desse super ciclo.

E neste momento, o conflito no Estreito de Ormuz acendeu ainda mais a chama nessa oferta que já estava extremamente apertada.

Você deve saber que a maior parte da capacidade de armazenamento global está na Coreia do Sul, onde a Samsung e a SK Hynix juntas representam 70% da capacidade de DRAM global. Além disso, 70% do petróleo da Coreia do Sul depende do Oriente Médio, quase tudo vindo do Estreito de Ormuz.

O mais preocupante é que os gases raros necessários para a produção de armazenamento, como hélio, são 64,7% provenientes do Catar, que já suspendeu a produção de hélio, reduzindo a oferta global em 30%. Outros gases como néon, cuja maior parte provém do Irã, agora se tornaram uma bomba-relógio na cadeia de suprimentos.

Essa é a situação atual da indústria de armazenamento: a lógica de longo prazo é o super ciclo de demanda trazido pela IA, com oferta rígida e preços em alta; a lógica de curto prazo é o conflito geopolítico no Estreito de Ormuz, que atingiu diretamente o núcleo da capacidade de armazenamento externa, tornando a oferta já tensa ainda mais apertada.

03 Quem pode aproveitar essa lacuna de oferta global?

Muitas pessoas se perguntarão: onde estão as oportunidades para o armazenamento nacional neste momento? Quais segmentos devemos observar de perto?

Na verdade, é simples: concentre-se em dois pontos principais: primeiro, identifique aqueles segmentos de oferta externa mais suscetíveis a interferências geopolíticas; segundo, encontre líderes nacionais que já tenham realizado avanços técnicos e tenham capacidade pronta. Somente eles poderão aproveitar essa lacuna que se abriu repentinamente.

Primeiramente, esses segmentos de HBM e DRAM de alta qualidade.

Pense bem, a capacidade da Samsung e da SK Hynix já foi prévia e completamente assegurada pela NVIDIA. Se a capacidade deles enfrentar problemas devido a questões de energia ou matéria-prima, quem irá preencher esse vazio?

Primeiro, é claro, são as fábricas de wafers de chips de armazenamento nacionais que estão se expandindo rapidamente e já melhoraram suas taxas de produção. Além disso, eles também estão investindo em pesquisa e desenvolvimento de HBM. Se a oferta externa enfrentar problemas, os clientes podem acelerar a validação de produtos nacionais.

Além disso, há o segmento de módulos de armazenamento.

Empresas como a Jiangbolong e a Baiwei Storage já possuem canais de clientes maduros. Se a oferta de wafers no exterior enfrentar problemas e os preços subirem, elas poderão depender da capacidade nacional de wafers para fornecer produtos de armazenamento mais estáveis e baratos aos clientes.

No passado, todos achavam que a cadeia de suprimentos externa era muito estável, por isso não queriam correr o risco de mudar para produtos nacionais. Contudo, o conflito geopolítico soou um alarme para todos: a cadeia de suprimentos externa também pode falhar? Colocar toda a capacidade no exterior é um risco tão grande?

Além disso, o aumento dos preços do petróleo fez com que os custos das empresas estrangeiras disparassem, acentuando ainda mais a vantagem de custo das empresas nacionais.

Em suma, a lógica de longo prazo do armazenamento é o super ciclo de demanda impulsionado pela IA e a corrida de dez anos pela substituição nacional; o catalisador a curto prazo é este conflito geopolítico que acelerou todo o processo.

No entanto, considerando que o setor já teve um aumento significativo anteriormente, que pode já ter refletido as expectativas otimistas do mercado, os investimentos futuros devem estar atentos a múltiplos riscos:

Risco de desenvolvimento da IA abaixo do esperado: Atualmente, a demanda por armazenamento impulsionada pela IA continua a crescer. Se o progresso da tecnologia dos grandes modelos não for tão rápido quanto o esperado, não se pode descartar o risco de redução nos gastos de capital da IA, o que afetaria a demanda.

Risco de queda nos preços de armazenamento: Devido à explosão nos preços do armazenamento, existem fenômenos de especulação e acúmulo nos canais de distribuição. Se a especulação excessiva afetar a demanda do consumidor final, existe o risco de queda nos preços.

Risco de progresso em pesquisa e desenvolvimento abaixo do esperado: As empresas de armazenamento precisam continuar a atualizar e inovar seus produtos. Se ocorrerem erros na escolha estratégica, isso pode levar a riscos de falhas na pesquisa e desenvolvimento.

04 Conclusão

Olhando para a história da indústria de armazenamento global, cada conflito geopolítico acelera a reestruturação da cadeia de suprimentos; cada revolução tecnológica gera novas demandas de armazenamento.

Atualmente, estamos na interseção da revolução da IA e da reestruturação da cadeia de suprimentos, e o armazenamento é a pista central que ambas as correntes apontam.

Claro, qualquer investimento em uma pista não pode ser suave. A indústria de armazenamento ainda enfrenta riscos relacionados a mudanças nas políticas comerciais internacionais, aumento da concorrência no setor e evolução tecnológica abaixo do esperado. Isso exige que continuemos a monitorar as mudanças na indústria, separar o verdadeiro do falso e identificar as empresas que realmente possuem vantagens competitivas.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar