A nova tecnologia TurboQuant da Google significa que a festa acabou para a Micron?

Há pouco mais de um ano, um fundo chinês de quant hedge fund-turned-AI lab lançou um modelo avançado de IA chamado DeepSeek. Embora haja alguma discussão sobre o quão barato e em que chips o DeepSeek foi treinado, não há dúvida de que o DeepSeek implementou inovações novas que aumentaram muito a eficiência do treino de um modelo de IA com menos semicondutores e “menos bons”.

As ações de semicondutores e de memória para IA venderam-se acentuadamente com a notícia, com base na impressão superficial de que as empresas de IA não precisariam de comprar tantos chips de lógica e de memória. No entanto, agora sabemos todos que estas ações acabaram por recuperar, e ainda mais, à medida que uma maior eficiência do modelo não travou a procura por chips. Pelo contrário, as empresas de IA usaram os ganhos de eficiência para investir em modelos ainda mais avançados, aumentando a procura total por capacidade de computação e por memória.

Na semana passada, a Alphabet’s (GOOG +5.02%) (GOOGL +5.10%) Google Research lançou o TurboQuant, uma tecnologia de compressão de memória de IA baseada em software que permite inferência muito mais eficiente com menos memória. Em resposta, grandes empresas de memória como a Micron (MU +4.80%) e os seus fornecedores venderam-se acentuadamente.

Mas será que isto é apenas mais um momento DeepSeek em que os investidores devem comprar?

Expand

NASDAQ: MU

Micron Technology

Variação de hoje

(4.80%) $15.46

Preço atual

$337.26

Principais dados

Market Cap

$381B

Intervalo do dia

$311.50 - $337.70

Intervalo de 52 sem.

$61.54 - $471.34

Volume

3.1M

Vol médio

40M

Margem bruta

58.54%

Rendimento de dividendos

0.18%

O que é o TurboQuant?

O TurboQuant aumenta significativamente a capacidade e acelera a cache de valores-chave (KV cache) na inferência de IA. A KV-cache é um tipo de memória que permite a um algoritmo de IA reter contexto anterior sem recalcular todos os tokens anteriores para gerar novos. A KV-cache é, portanto, uma espécie de “história” da saída anterior da IA.

Mas se a KV-cache é a “história” do contexto passado, o TurboQuant é um “resumo” rápido mas preciso dessa história.

Em termos leigos, o TurboQuant funciona assim. Um modelo de IA compreende o contexto ao armazenar dados como vetores, ou gráficos multidimensionais com várias “embeddings”, ou pontos dentro de um eixo X-Y-Z. Um token com um vetor semelhante a outro significa que tem uma relação semelhante.

Para simplificar, vamos assumir um plano X-Y. Assim, uma embedding pode ser definida pela direção “vá três espaços para leste e quatro espaços para norte”.

O TurboQuant simplifica estes comandos ao dizer, “vá cinco espaços a 37 graus a nordeste.” Isto reduz muito as computações necessárias para compreender o contexto, embora possa levar a erros residuais. Mas o TurboQuant sobrepõe, em seguida, um mecanismo de correção de erros de 1-bit que limpa isto. Mesmo com o bit extra, esta técnica usa muito menos memória do que o método padrão de coordenadas XYZ para vetores de IA.

Como resultado da correção de erros, a Google Research afirma que o TurboQuant pode aumentar a capacidade da KV-cache em seis vezes, ao mesmo tempo que torna a inferência de IA oito vezes mais rápida — tudo isto sem perda de precisão.

O TurboQuant acelera a inferência de IA. Fonte da imagem: Getty Images.

Como o TurboQuant vai afetar a memória de IA

Se a inferência de IA puder usar seis vezes menos DRAM e funcionar oito vezes mais rápido, a ideia é que pode haver menos procura de memória nas futuras aplicações de inferência.

Isto parece um pouco simplista, embora exista um cenário negativo plausível. Um risco é que a quota de mercado da inferência de IA possa mudar de GPUs caras com memória de alta largura de banda (HBM) para CPUs a executar em “memória de servidor tradicional”, como DDR5 ou MRDIMM.

A HBM é muito mais rápida do que estes tipos antigos de memória, mas consegue armazenar menos contexto e é muito mais cara. Devido ao aumento de velocidade oito vezes na KV cache proporcionado pelo TurboQuant, uma empresa que agora queira usar muitos agentes de IA a inferir sobre uma grande quantidade de dados, como um documento legal de 1.000 páginas, pode talvez implementar DDR5 ou MR-DIMM de forma mais eficaz. Embora a HBM também seja impulsionada pelo TurboQuant, formas mais antigas de memória usadas por CPUs poderiam ser “suficientemente rápidas” para grandes empresas que procuram reduzir custos.

A HBM tem sido um dos principais fatores no atual aperto na oferta de memória, pois pode ser necessário entre três a quatro vezes mais equipamento para produzir um bit de HBM do que “memória tradicional”. Por isso, é possível que, à medida que a procura se desloque para uma memória mais tradicional para inferência, o mercado de memória não fique tão limitado em termos de oferta.

Mas a história otimista é mais provável

Embora o TurboQuant represente um risco potencial para o mercado de HBM, que tem absorvido a maior parte da oferta do setor, este investidor ainda acredita que um cenário otimista é mais provável.

Em primeiro lugar, a HBM também vai ver melhorias com o TurboQuant, ao permitir que a inferência baseada em HBM tenha janelas de contexto maiores. Assim, a inferência de IA não vai mudar totalmente para CPUs ou memória tradicional. Para aplicações que exigem latência extremamente rápida, a HBM ainda será provavelmente utilizada em alguma medida.

Além disso, a HBM ainda é o principal tipo de memória para o treino de modelos de IA, e o TurboQuant não afeta isso. Embora a inferência seja o maior mercado no futuro, a procura de HBM para treino ainda deverá continuar a aumentar. Dado que neste momento estamos muito subabastecidos em HBM e que o TurboQuant ainda nem sequer foi implementado fora do laboratório da Google, as empresas de memória terão tempo para ajustar o crescimento da sua oferta em conformidade.

Mas pode nem ser necessário ajustar a oferta, já que o paradoxo de Jevon pode manter-se para o TurboQuant tal como se manteve para o DeepSeek. O Paradoxo de Jevon afirma que quando um processo se torna mais eficiente, em vez de usar menos dos seus inputs, a procura aumenta efetivamente por esses recursos, porque uma maior eficiência desbloqueia a adoção e mais casos de uso.

Dado que a maioria das principais empresas de tecnologia acredita que ainda estamos no início da era da IA, se o TurboQuant acelerar a taxa com que as empresas e os consumidores incorporam a IA nos seus negócios, a maré crescente da procura deverá levantar todos os barcos.

Em suma, este recuo nas ações de memória pode ser uma oportunidade. Embora a Micron e as ações relacionadas de equipamento de capital em semicondutores ainda estejam muito acima ao longo do último ano, este “susto” pode ser uma oportunidade para adicionar ou comprar uma participação inicial, se tivesse ficado de fora do desempenho do último ano.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar