SemiAnalysis: Da infraestrutura à camada de modelo, a migração de riqueza na cadeia de valor da IA está acelerando.

O centro de valor da indústria de IA está a passar por uma transferência estrutural.

Nos últimos dois anos, a NVIDIA, fabricantes de memória e fornecedores de energia dominaram a distribuição dos retornos de investimento em IA, mas com a aceleração da comercialização da IA Agente (Agentic AI), o espaço de lucro no nível dos modelos está a expandir-se a um ritmo sem precedentes, enquanto a NVIDIA e a TSMC, que controlam o lado da oferta de poder computacional, ainda não refletiram plenamente esta tendência nos seus preços.

A Anthropic é a nota de rodapé mais direta desta mudança. De acordo com o estudo mais recente da SemiAnalysis, a receita anualizada (ARR) da Anthropic disparou de 9 mil milhões de dólares no início do ano para mais de 44 mil milhões de dólares, e a margem bruta da sua infraestrutura de inferência saltou de 38% para mais de 70% no mesmo período. Simultaneamente, os custos de produção de tokens foram drasticamente reduzidos devido a iterações de hardware e otimizações de software, e a tesoura entre o valor e o custo continua a alargar-se, impulsionando os fabricantes de modelos para uma nova fase de rápida expansão das margens de lucro.

No lado da oferta, a NVIDIA e a TSMC possuem os recursos mais escassos, mas ainda não responderam adequadamente à atual procura intensa em termos de preços. A SemiAnalysis acredita que este atraso na fixação de preços constitui um importante desalinhamento de mercado: o sistema de próxima geração representado pelo Vera Rubin (VR NVL72) tem um espaço significativo para aumentos de preço, e quem conseguir aproveitar esta redistribuição de valor terá um impacto profundo na lógica de investimento em todas as partes da cadeia da indústria de IA.

O caminho de migração de três anos do pool de valor da IA

Entre 2023 e 2025, o retorno excessivo do investimento em IA concentrou-se principalmente na camada de infraestrutura.

A NVIDIA emitiu pela primeira vez um relatório de lucros explosivo em maio de 2023, com uma subida de 25% após o fecho do mercado, inaugurando oficialmente a vaga de investimento em IA. Em 2024, a Vistra e a GE Vernova subiram 265% e 146%, respetivamente, tornando-se as ações mais fortes do S&P 500, e o gargalo energético tornou-se o foco do mercado. Em 2025, o setor de memória assumiu a liderança, com a SanDisk, Western Digital, Seagate e Micron a registarem ganhos superiores a 200% ao longo do ano, com o desequilíbrio entre oferta e procura de armazenamento a tornar-se a variável central a impulsionar os preços.

Entretanto, as margens brutas dos fabricantes de modelos e dos fornecedores de serviços de inferência estiveram sob pressão durante muito tempo. Na altura, a utilidade real da IA era considerada pelos críticos como nada mais do que "uma melhor pesquisa do Google" com uma interface de chat, em grave desvio dos esperados biliões de dólares em despesas de capital.

Este cenário sofreu uma mudança fundamental no final de 2025.

IA Agente: O ponto de inflexão que remodela a economia dos tokens

A SemiAnalysis considera dezembro de 2025 como o verdadeiro ponto de inflexão da comercialização da IA – a IA agente começou a funcionar de forma estável e a ser implementada em grande escala nos fluxos de trabalho empresariais. O significado central desta mudança reside no facto de ter alterado fundamentalmente o valor económico dos tokens.

Tomando a própria SemiAnalysis como exemplo, as suas despesas anualizadas com tokens já equivalem a cerca de 30% do total de salários dos funcionários, com cada funcionário a consumir mais de 5 mil milhões de tokens por mês, mais de 5 vezes o nível per capita interno da Meta. A equipa de investigação listou vários casos reais: trabalhos que antes exigiam horas de um analista júnior, como modelação financeira, criação de gráficos e análise de rentabilidade, agora podem ser concluídos por agentes a um custo de tokens extremamente baixo, enquanto o custo de mão de obra equivalente já chegou a centenas ou milhares de dólares.

Simultaneamente, o custo de produção de tokens está a cair drasticamente. A SemiAnalysis estima que, em cenários de tarefas de agentes, o preço misto real para executar o Opus 4.7 é de cerca de 0,99 dólares por milhão de tokens, muito abaixo do preço oficial de 5/25 dólares – a razão é que as cargas de trabalho dos agentes têm uma relação entrada/saída extremamente elevada (cerca de 300:1) e uma taxa de acerto de cache superior a 90%, com uma grande quantidade de tokens a cair na faixa de preço mais baixa.

A aceleração ao nível do hardware é igualmente significativa. Em comparação com o H100 de há um ano, a série Blackwell gera cerca de 30 vezes mais tokens por segundo em cargas de trabalho de ponta. Uma comparação mais aprofundada mostra que, na configuração mais otimizada, o GB300 NVL72 tem um rendimento cerca de 17 vezes superior ao do H100 mais otimizado em precisão FP8, e esta diferença aumenta para 32 vezes ao mudar para FP4, enquanto o custo total de propriedade (TCO) é apenas cerca de 70% superior.

A tesoura bidirecional entre valor e custo é a força motriz central por detrás do salto da margem bruta da Anthropic de 38% para mais de 70%.

Poder de fixação de preços no nível do modelo: Porque não será corroído pela concorrência

Face à rápida expansão das margens de lucro dos fabricantes de modelos, a dúvida mais comum do mercado é: a concorrência acabará por reduzir os preços. A SemiAnalysis tem reservas quanto a isso e apresenta dois argumentos de apoio.

Primeiro, o poder de fixação de preços dos modelos fechados de ponta continua sólido. Embora os modelos de código aberto estejam constantemente a bater recordes em testes de referência, em cenários reais de trabalho de conhecimento, o seu desempenho ainda é claramente inferior ao dos modelos fechados de ponta. Usando o Kimi K2.6 (preço 0,95/4 dólares) como exemplo, a sua pressão descendente sobre o preço do Opus da Anthropic é muito limitada.

Segundo, as restrições de poder computacional significam que nenhum laboratório de ponta consegue satisfazer sozinho toda a procura do mercado. A Anthropic já começou a gerir ativamente a procura, bloqueando o Claude Code atrás de um limite de subscrição mensal de mais de 100 dólares e limitando o acesso de terceiros. A procura de tokens continuará a superar a oferta num futuro previsível. Esta escassez estrutural confere aos fabricantes de modelos de ponta a confiança para fixarem preços com base no valor, e não no custo.

A Anthropic já materializou esta lógica através da sua estratégia de linha de produtos: o Opus fast tem um preço 6 vezes superior ao do Opus normal, o próximo Mythos, com um preço de 25/125 dólares, é 5 vezes superior ao Opus normal, e os principais clientes empresariais ainda estão dispostos a pagar por estes SKUs de alto preço. A SemiAnalysis afirma que, se a Anthropic fixasse o preço do Mythos fast em 150/750 dólares, ela própria seria um utilizador pagante.

NVIDIA e TSMC: O atraso na fixação de preços de recursos escassos

No entanto, as duas empresas que controlam os recursos escassos mais centrais – NVIDIA e TSMC – ainda não acompanharam totalmente esta vaga de reavaliação de valor.

A capacidade de produção avançada do N3 da TSMC tornou-se o gargalo mais apertado de toda a expansão do poder computacional de IA. A NVIDIA, Broadcom, Annapurna, MediaTek e AMD estão todas a disputar as quotas limitadas de wafers N3, e espera-se que a taxa de utilização da capacidade N3 ultrapasse os 100% no segundo semestre de 2026. A taxa de utilização das fábricas de wafers de DRAM já ultrapassou os 90%, e a oferta geral de memória está apertada, mas os preços são relativamente conservadores.

A SemiAnalysis acredita que a TSMC está em condições de aumentar significativamente os seus preços, e não só os clientes aceitarão, como alguns até o saudariam – a NVIDIA é um caso típico: se a TSMC aumentar os preços, significando que os concorrentes obtêm menos quotas de capacidade, o facto de a NVIDIA pagar preços de wafer mais elevados ajudará, na verdade, a consolidar a sua posição no mercado. O CEO da NVIDIA, Jensen Huang, disse publicamente em 2024 que a TSMC deveria aumentar os preços dos wafers, e a lógica por detrás disso reside aqui.

A própria estratégia de preços da NVIDIA também mostra uma tendência conservadora semelhante. A SemiAnalysis aponta que o quadro de preços da NVIDIA ainda está ancorado na suposição anterior de que "o preço que se está disposto a pagar por unidade de poder computacional diminui ao longo do tempo", mas esta suposição já não é válida. Com a explosão das cargas de trabalho dos agentes, a procura de poder computacional já não é linear, mas sim de aceleração composta.

Sistema Rubin: Quantificando o espaço de preço da Nvidia

Tomando como referência o Vera Rubin (VR NVL72), a ser lançado no segundo semestre de 2026, a SemiAnalysis construiu um quadro de análise de preços "One Chart to Rule Them All", ancorando o piso e o teto do preço de aluguer a partir dos lados do custo e do valor.

Lado do custo (piso): Com base no requisito de implementação de que a taxa interna de retorno (IRR) dos projetos Neocloud (fornecedores de serviços cloud emergentes) não seja inferior a 15,6%, o aluguer mínimo por GPU por hora do VR NVL72 precisa de ser de cerca de 4,92 dólares para manter a vontade de implementação dos Neocloud.

Lado do valor (teto): Com base no aluguer atual do GB300 num contrato de 5 anos de cerca de 0,70 dólares por PFLOP, o limite superior do aluguer correspondente ao VR NVL72 é de cerca de 12,25 dólares por GPU por hora.

Atualmente, o preço do sistema VR NVL72 reduz o custo por PFLOP para apenas cerca de 0,28 dólares, uma queda de 60% em comparação com o GB300 NVL72, muito superior à melhoria da linha de tendência histórica. Isto significa que há um espaço de aumento de cerca de 40% no preço do servidor da Nvidia. Mesmo após o ajuste, ainda pode deixar margem de lucro suficiente para os Neocloud, e a melhoria global do custo ainda é inferior à tendência histórica.

O preço da memória SOCAMM é outra variável chave. O VR NVL72 utiliza módulos de memória LPDDR5X com socket (SOCAMM), que podem ser precificados independentemente das unidades de computação. A SemiAnalysis estima que o preço do contrato SOCAMM pago pela NVIDIA no primeiro trimestre de 2026 seja de cerca de 8 dólares por GB, um salto significativo em relação ao trimestre anterior; prevê-se que, até ao final de 2026, o preço do SOCAMM possa ultrapassar os 13 dólares por GB. Neste contexto, é logicamente razoável que a NVIDIA atinja uma margem bruta de 60% no SOCAMM: por um lado, o fornecimento de memória é limitado e a NVIDIA detém a maior quota; por outro lado, a posição de liderança do VR NVL72 em termos de desempenho TCO deixa os clientes sem alternativas.

Quem ganha e quem espera na distribuição de valor

O quadro da SemiAnalysis revela a contradição central na atual distribuição de valor da IA: A melhoria da economia dos tokens está a impulsionar rapidamente os lucros dos fabricantes de modelos, fornecedores de serviços de inferência e Neocloud, mas, como detentores dos recursos mais escassos no lado da oferta de poder computacional, a NVIDIA e a TSMC apresentam um claro desalinhamento entre o seu comportamento de preços e a escassez da sua oferta.

A persistência deste desalinhamento é, essencialmente, uma escolha ativa – A NVIDIA está a desempenhar um papel semelhante ao de um "banco central da IA", transferindo valor a jusante através de ganhos de eficiência de software, para manter o ímpeto de expansão de longo prazo do ecossistema e, ao mesmo tempo, evitar pressões regulatórias antitrust. A TSMC continua a sua filosofia histórica de preços de "estabilizar o ecossistema e não explorar totalmente os ganhos ascendentes".

No entanto, à medida que o ROI da inferência se torna cada vez mais claro e a lógica de preços baseada no valor se populariza no mercado, a pressão sobre estas duas empresas para mudarem para um quadro de preços baseado no valor continuará a aumentar. Uma vez que a mudança ocorra, o padrão de distribuição de valor na cadeia da indústria de IA será remodelado novamente – nessa altura, o poder de negociação do lado da oferta de poder computacional regressará em maior medida para a camada de hardware.

Aviso de risco e termos de responsabilidade

O mercado apresenta riscos e o investimento deve ser cauteloso. Este artigo não constitui aconselhamento de investimento pessoal e também não tem em consideração os objetivos de investimento, situação financeira ou necessidades específicas de utilizadores individuais. Os utilizadores devem considerar se quaisquer opiniões, pontos de vista ou conclusões neste artigo se adequam à sua situação específica. O investimento baseado neste artigo é da sua própria responsabilidade.

TOKEN-3,03%
VR-0,37%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado