"Lagosta" dá um grande "prolongamento de vida útil" à "memória"?

Question

Com ferramentas de inteligência artificial de agentes, representadas pelo OpenClaw, a lógica de demanda do mercado de memória está a evoluir para um novo paradigma. Segundo fontes do Trading台, o mais recente relatório da Morgan Stanley, divulgado em 18 de março, aponta que: A IA passa de “pensar” para “executar”, o que fará com que o DRAM substitua o HBM como o principal gargalo de chips na infraestrutura de IA, prolongando a vida útil da memória além das expectativas.

Pesquisas de mercado indicam que, até o segundo trimestre de 2026, o preço do DDR5 para servidores deve aumentar mais de 50% em relação ao trimestre anterior, com alguns grandes fornecedores de nuvem na China a oferecerem preços ainda mais altos; o aumento previsto nos contratos de DDR4 é de 40%-50%, e os preços de SSDs empresariais NAND podem subir pelo menos 40%-50%. A Morgan Stanley acredita que estamos no meio de um ciclo de alta da memória, com uma oferta mais restrita do que o previsto — “as previsões de lucros de Wall Street terão que se ajustar à realidade.”

Essas avaliações já se refletem na revisão dos preços-alvo: a previsão de EPS da SK Hynix para 2026-2027 foi ajustada para cima em 24% e 32%, respectivamente, com o preço-alvo subindo de 1,1 milhão de won para 1,3 milhão de won, representando um potencial de alta de 43% em relação ao preço atual; o preço-alvo das ações ordinárias da Samsung Electronics foi elevado para 251 mil won, ambas as ações mantendo a classificação de “manter”.

A principal conclusão da Morgan Stanley é: o mercado está acostumado a pensar de forma linear, enquanto a capacidade da camada de IA está a expandir-se de forma exponencial — quando a IA passa de “gerar respostas” para “completar tarefas”, a demanda por memória aumenta drasticamente, e essa mudança acaba de começar a acelerar.

“Fazer coisas” consome mais memória do que “pensar nelas”

A lógica do relatório da Morgan Stanley começa com uma afirmação aparentemente simples, mas carregada de significado: “Fazer coisas exige mais DRAM do que pensar nelas.”

Modelos de linguagem de grande escala (LLMs) tradicionais operam em um fluxo linear dominado por GPU: recebem perguntas, processam em lote todos os tokens de entrada (fase de pré-preenchimento), depois geram respostas token por token (fase de decodificação), enquanto a CPU converte os resultados em texto. Nesse fluxo, a capacidade de GPU é o gargalo decisivo, e o DRAM serve apenas para cachear leituras e gravações.

A emergência de agentes de IA muda completamente essa lógica. Tomemos o OpenClaw como exemplo: essa ferramenta de IA de código aberto, hospedada na nuvem, pode se conectar simultaneamente a mais de 50 plataformas de mensagens, como WhatsApp, Telegram, Slack, Signal, e possui permissões de automação de navegador, manipulação de arquivos, execução de comandos, chamadas de API, entre outros. Ela não responde apenas a perguntas, mas realiza tarefas — busca na internet, lê documentos, chama ferramentas externas, executa códigos, e produz um conjunto de ações colaborativas geradas por múltiplos passos.

A mudança de paradigma tem uma implicação técnica central: o fluxo de trabalho passa de uma inferência única de GPU para uma coordenação de múltiplos passos, chamadas de ferramentas e orquestração de processos, onde o tempo de cálculo da CPU muitas vezes supera o da GPU na contribuição para a latência total. Além disso, múltiplos agentes precisam compartilhar continuamente o contexto, descarregar caches KV (Key-Value), armazenar e recuperar resultados intermediários — a memória passa de um componente de computação para o principal gargalo.

OpenClaw: a lente de amplificação extrema da demanda por memória

A análise detalhada da Morgan Stanley sobre a demanda de memória do OpenClaw conclui que: em ferramentas de IA de agentes, o DRAM domina, enquanto outros limites de hardware ficam em segundo plano.

A ferramenta opera em dois modos distintos:

Modo gateway leve (chamadas remotas a APIs externas como Claude ou GPT-4): mesmo assim, o gargalo não está na GPU ou CPU, mas no uso de DRAM pelo runtime Node.js. O uso mínimo necessário é de 2GB de DRAM, com recomendações de 4GB para operação estável em produção.

Modo de modelo local (carregar e executar o modelo de IA localmente): aqui, o DRAM do sistema e o HBM da GPU tornam-se restrições duplas. A Morgan Stanley recomenda 32GB de RAM do sistema; modelos de 7 a 8 bilhões de parâmetros requerem adicionalmente 8GB de VRAM; modelos de 13 a 70 bilhões de parâmetros precisam de 16-24GB; modelos gigantes como Llama 3 70B ou Qwen 72B requerem mais de 80GB.

O relatório destaca que a falta de memória não causa apenas redução de desempenho, mas falhas diretas — JavaScript lança erro de “heap out of memory” (estouro de heap), levando à falha na instalação ou interrupções na execução. Essa nuance revela que, no cenário de agentes, a memória é uma restrição rígida: insuficiência de memória não é lento, é “morto”.

Migração do gargalo de computação: de HBM para memória do sistema

A característica de demanda de memória do OpenClaw é um reflexo de uma mudança estrutural mais ampla.

A Morgan Stanley aponta que o gargalo de computação de IA está migrando sistemicamente: de capacidade de processamento para movimentação de dados, de HBM para memória do sistema (DRAM), com a arquitetura de memória evoluindo de uma estrutura centrada em HBM para uma estrutura multi-camada que combina HBM, DRAM e SSD NVMe.

Um dos motores dessa mudança é a rápida expansão da necessidade de contextos longos (long context). O cache KV cresce linearmente com o número de tokens, e em cenários de inferência distribuída (preenchimento e decodificação disaggregados), há uma transmissão de dados pela rede, aumentando significativamente a carga de I/O da CPU. Operações centrais de agentes, como recuperação RAG e gerenciamento de contexto, envolvem intensas operações de memória.

No mercado, essa tendência é confirmada: a Intel e a AMD recentemente confirmaram uma demanda real por processadores de alta quantidade de núcleos; a receita de CPUs AMD EPYC ultrapassou 40% do total de CPUs de servidor pela primeira vez, com crescimento de mais de 50% ano a ano na implantação de instâncias na nuvem com EPYC. A Nvidia lançou CPUs independentes Vera e firmou acordos plurianuais com Meta, implantando CPUs dedicadas em larga escala para suportar operações de agentes pessoais.

Preços acelerados: ciclo em meio, espaço ainda disponível

Essas mudanças estruturais já se refletem de forma concreta nos preços.

No lado do DRAM, no segundo trimestre de 2026, o preço do DDR5 para servidores já foi negociado a mais de 50% acima do trimestre anterior, com alguns grandes fornecedores de nuvem na China a aceitarem preços ainda mais altos. No final de fevereiro, o contrato de 64GB RDIMM atingiu US$ 910-920, cerca de 20% acima da média do primeiro trimestre de US$ 800. Os preços de DDR4 em contratos e de DRAM para eletrônicos de consumo devem subir pelo menos 40%-50%; o HBM3E, que tinha previsão de queda de 20-25%, já mostra sinais de aumento de um dígito em renovações de contratos com clientes de ASIC.

No lado do NAND, os preços de SSDs empresariais devem subir de 40%-50% no segundo trimestre, com produtos de consumo a aumentos de pelo menos 60%, e em alguns cenários, os preços de eSSD podem dobrar novamente.

A Morgan Stanley acredita que a aceleração dos preços ano a ano continuará, e o ciclo de alta ainda está na metade. Assim que o mercado ajustar as previsões de lucros para refletir as restrições de capacidade atuais, há espaço para uma recuperação significativa nos ativos relacionados; uma potencial revisão para cima dos retornos de capital pode sustentar desempenho superior.


Essas informações vêm diretamente do Trading台.

Para uma análise mais detalhada, incluindo interpretações em tempo real e pesquisa de ponta, considere tornar-se um【**Membro Anual do Trading台**】.

Aviso de risco e isenção de responsabilidade

O mercado apresenta riscos, e os investimentos devem ser feitos com cautela. Este texto não constitui aconselhamento de investimento pessoal, nem leva em consideração objetivos, situação financeira ou necessidades específicas de qualquer usuário. Os usuários devem avaliar se as opiniões, pontos de vista ou conclusões aqui apresentadas são compatíveis com suas circunstâncias particulares. Investimentos por sua conta e risco.

Ver original

"Lagosta" dá um grande "prolongamento de vida útil" à "memória"?

“Fazer coisas” consome mais memória do que “pensar nelas”

OpenClaw: a lente de amplificação extrema da demanda por memória

Migração do gargalo de computação: de HBM para memória do sistema

Preços acelerados: ciclo em meio, espaço ainda disponível

Tópicos em destaque

Gate13thAnniversaryGlobalCelebration

TradFiIntroducesMultiLeverageFirst

IsraelStrikesIranBTCPlunges

FedHoldsRatesSteady

CreatorLeaderboard

Gate Fun tendência

🐱

xiaomao

$

NVIDIA

ElizaOSv2

全新AI开源框架

龙虾🦞

Token

MAOTAI

来口茅台

Fixar