Este é um modelo de médio porte, o "mais produtivo" da série Sonnet. Obteve 63,2 pontos no teste de capacidade de agente SWE-bench Pro – apenas 6 pontos a menos que os 69,2 do principal Opus 4.8. Em outra dimensão, no teste de raciocínio de nível de pós-graduação GPQA-AAA v2, o Sonnet 5 superou o Opus 4.8.

O preço é ainda mais crucial. Durante o período promocional, custa US$ 2 por milhão de tokens de entrada e US$ 10 para saída. O Opus 4.8 custa US$ 5 e US$ 25, respectivamente – o Sonnet 5, com 40% a 60% do preço, entrega mais de 90% da capacidade do principal.

Esta notícia pode ser lida de duas maneiras.

A primeira: a IA ficou mais barata. A redução de custos beneficia a todos, a guerra dos Chatbots continua e os fabricantes de modelos competem intensamente.

A segunda – e é a que o mercado está precificando – quanto mais baratos os modelos, mais caros se tornam a computação e o armazenamento.

No dia do lançamento do Claude Sonnet 5, o índice de semicondutores dos EUA subiu quase 4%. Nos últimos três anos, há uma linha clara na narrativa da IA: a eficiência de inferência eliminaria a demanda por chips. Mas esse julgamento errou em cada ponto de dados.

Redução de preço: mil vezes em três anos

Primeiro, vejamos a linha de redução de preços.

Em 2022, o custo da chamada de API no nível GPT-4 era de cerca de US$ 0,03 por mil tokens. Em 2025, o preço de modelos com desempenho equivalente – de acordo com o Stanford AI Index Report – caiu cerca de 280 vezes. Combinando código aberto e ganhos de eficiência, a redução amplamente aceita no setor é de 1000 vezes.

Não foi apenas um modelo que caiu; todos caíram.

O Sonnet 5 da Anthropic, com densidade de capacidade comparável ao Opus 4.8, custa apenas 40% a 60%. O Gemini Omni Flash do Google gera vídeo a US$ 0,10 por segundo, e o modelo de imagem Nano Banana 2 Lite gera uma imagem em 4 segundos, custando apenas US$ 0,034 por mil imagens – metade do preço da geração anterior. O DeepSeek-V4-Pro reduziu o custo de um milhão de tokens de entrada para US$ 0,035.

A redução de preço não está apenas na tabela de preços.

Em 24 de junho, o The Information informou que a OpenAI encontrou internamente uma técnica de otimização puramente de software – a demanda por GPU em um determinado estágio de computação foi reduzida em mais da metade, e o pool dedicado de GPUs caiu de milhares para centenas. No mesmo mês, a Meta propôs o projeto Vistara: reconectar a memória DDR4 de servidores aposentados usando chips CXL proprietários, combinando-a com DDR5 na proporção de 3:1, reduzindo o custo do servidor de inferência em 25%.

Em 30 de junho, a Stepfun open-sourçou a tecnologia de decodificação especulativa JetSpec – a velocidade de inferência de modelos grandes pode aumentar quase 10 vezes. Isso significa que, para a mesma quantidade de tokens de saída, o número de GPUs necessárias pode cair drasticamente uma ordem de magnitude.

Se a IA fosse uma função tradicional de custo-demanda, esses sinais apontariam para uma coisa: menos chips serão necessários no futuro.

Wall Street temia isso.

No fim de semana em que a DeepSeek lançou o R1 em janeiro, as ações de infraestrutura de IA sofreram a venda mais intensa dos últimos anos. A ação da empresa de nuvem de IA Nebius despencou 40%. A história é simples: modelos chineses de código aberto vendem tokens a US$ 0,1, enquanto as empresas americanas cobram US$ 2, e a demanda por computação inevitavelmente entrará em colapso.

Explosão: despesa total aumentou 320%

Mas o que realmente aconteceu foi o oposto.

Roman Chernin, cofundador da Nebius, lembrou mais tarde: a semana do pânico do DeepSeek "pode ter sido a nossa melhor semana de vendas". A reação imediata do departamento de compras da empresa ao ver a queda drástica de custos não foi cortar o orçamento, mas finalmente poder executar inferências em grande escala.

Em 2024, os gastos globais das empresas com IA generativa foram de cerca de US$ 11,5 bilhões. Em 2025, esse número disparou para US$ 37 bilhões – um aumento de 320% em um ano. De acordo com a pesquisa empresarial da Menlo Ventures, a empresa mediana estava executando "dezenas" de aplicações de IA em 2025, enquanto em 2023 era de 1 a 2.

Os dados de todas as dimensões seguem a mesma curva:

A Uber já havia queimado todo o seu orçamento de IA para o ano em abril de 2026. A AT&T processa atualmente 27 bilhões de tokens por dia – 18 meses atrás, esse número era de 800 milhões. Uma grande seguradora de saúde dos EUA viu seu consumo mensal de tokens saltar de 3 milhões para mais de 150 milhões.

Em termos detalhados, o crescimento vem da sobreposição de três direções.

A primeira é a difusão das aplicações. O departamento de marketing de cada empresa usa 3 ferramentas de IA, o de vendas 4, o de atendimento ao cliente 2, além de jurídico, RH, finanças – de 2 para dezenas, um salto de ordem de magnitude.

A segunda é a profundidade de uma única aplicação. Tomando a IA de atendimento ao cliente como exemplo: em 2023, cerca de 500 interações por dia, cada uma com cerca de 800 tokens, terminando após o diálogo. Em 2025, 15.000 interações por dia, cada uma com cerca de 4.500 tokens, e cada interação ainda desencadeia 3 a 5 inferências subsequentes – análise de sentimento, previsão de escalonamento, avaliação de qualidade – todas sobrepostas na mesma entrada.

A terceira é a atualização da complexidade do próprio modelo. De modelos de rodada única de 7B parâmetros para agentes de raciocínio multi-etapas com mais de 70B, o consumo de tokens na inferência interna é dezenas a centenas de vezes maior do que na interação linear.

Em outras palavras, o custo do token caiu para um milésimo, e o número de tokens usados pelo mercado aumentou dezenas de milhares de vezes. O efeito líquido da multiplicação segue apenas uma direção: explosão de despesas.

O consumo de tokens dobra a cada dois meses – várias pistas independentes convergem para o mesmo número. Se traçarmos essa curva exponencial até 2027, os gastos anuais das empresas com IA ultrapassarem US$ 100 bilhões é uma questão aritmética, não uma previsão.

Transmissão: armazenamento subiu seis vezes, infraestrutura de chips aponta para US$ 7,6 trilhões

A demanda estimulada pela redução de preços não ficou no nível do software.

O aumento do preço da memória é o sinal mais direto da transmissão da demanda de IA da camada do modelo para a camada de hardware.

A partir do terceiro trimestre de 2025, os preços spot de DRAM e NAND Flash acumularam aumentos superiores a 300%. O preço dos módulos DDR5 chegou a superar 90% de aumento em um único mês. Ao entrar em 2026, a alta não apenas não parou, como acelerou.

No primeiro trimestre, os aumentos de preços contratuais de DRAM foram revisados de 55%-60% esperados para 90%-95%; NAND de 33%-38% para 55%-60%. A previsão da TrendForce para o segundo trimestre é de mais 58%-63% para DRAM e 70%-75% para NAND.

Tomando como referência um produto de consumo: o kit Acer Predator 32GB DDR5 6000, que estava a 1.300 yuans no final de outubro de 2025, já disparou para 2.700 yuans em janeiro de 2026. Triplicar em três meses, extremamente raro no mercado de bens de consumo.

O negócio de memória da Samsung registrou lucro operacional trimestral recorde no quarto trimestre de 2025 – ultrapassando 20 trilhões de won, cerca de 96,2 bilhões de yuans. O impulso mais fundamental para essa alta de mais de um ano não vem da atualização do consumidor em telefones ou PCs, mas das enormes compras de HBM, SSDs empresariais e DRAM de alta densidade pelos data centers de IA.

Um relatório de maio do Goldman Sachs calculou essa conta ao extremo.

O relatório prevê que o investimento acumulado em infraestrutura global de IA entre 2026 e 2031 será de aproximadamente US$ 7,6 trilhões. Em 2026, US$ 765 bilhões; em 2031, US$ 1,6 trilhão. Com o preço de uma GPU base (baseada no NVIDIA VR200 Rubin) de US$ 80.500, a NVIDIA representa 75% dos gastos totais com computação em cada período.

O Goldman Sachs também questionou um ponto-chave no relatório: se os ASICs (chips especializados) substituírem amplamente as GPUs, será que reduziriam a demanda total?

A resposta depende do cenário. Se a demanda for inelástica – a demanda por computação das empresas é fixa – a substituição por ASICs pode reduzir diretamente a necessidade total de capital. Mas se a demanda for elástica – quanto mais barata a computação, mais se compra – a mudança na combinação de chips remodela principalmente a distribuição de lucros entre diferentes fornecedores, e não o tamanho total dos gastos.

O cenário base do Goldman Sachs adota o último.

As ações americanas também estão se movendo na mesma direção. A SanDisk subiu 857% desde o início do ano, e um relatório da Bernstein em 30 de junho elevou o preço-alvo para US$ 3.000. A AMD subiu 7% em um dia, atingindo máxima histórica. Fabricantes de GPUs, de armazenamento, de empacotamento, de equipamentos para data centers – todos perto de máximas.

O número mais impactante citado em um artigo de revisão do Edgen.tech em 11 de junho é este: o preço dos chips de memória subiu seis vezes no último ano.

O rótulo de "recuperação cíclica" não se encaixa. Seis vezes de aumento, por trás está a reavaliação da demanda de todo o sistema econômico pela infraestrutura física da IA.

Raiz: Jevons já havia respondido em 1865

William Stanley Jevons escreveu um livro em 1865 chamado "A Questão do Carvão".

Sua observação central: após o aperfeiçoamento da máquina a vapor por Watt, o consumo de carvão por unidade caiu drasticamente, mas o consumo total de carvão na Grã-Bretanha aumentou. Porque a melhoria da eficiência tornou a energia a vapor economicamente viável em mais setores – têxteis, ferrovias, mineração, navegação – cada novo cenário criou uma demanda por carvão que antes não existia.

160 anos depois, a mesma fórmula se repete na computação de IA.

As empresas fizeram as contas. Com os preços dos tokens de 2022, a inferência de atendimento ao cliente em tempo real não era economicamente viável. Cenários não urgentes não valiam a pena executar IA. A geração de conteúdo personalizado só era possível em nível de grupo segmentado, não de usuário. Em 2025, com os preços 1000 vezes mais baixos, toda essa "demanda que não existia antes" se tornou necessidade.

Chernin, da Nebius, deu o resumo mais direto: "Cada vez que tornamos a mesma unidade de inteligência mais barata, não estamos reduzindo o consumo, mas aumentando – porque o mesmo orçamento permite resolver tarefas mais complexas."

O mercado ignorou outra força estrutural: o feedback positivo da margem bruta.

A curva da margem bruta da inferência de IA não tem paralelo na história. Uma empresa que oferece API pode começar com uma margem bruta de apenas 10% – treinamento caro, inferência cara. Mas as otimizações de software (fusão de operadores, quantização, decodificação especulativa) reduzem o custo de inferência a cada mês, enquanto os ajustes de preço sempre demoram um pouco mais. Assim, a margem sobe de 10% para 90% mais rápido do que em qualquer setor tradicional.

Margem bruta impulsiona lucro, lucro impulsiona compras adicionais, compras diluem custos – um loop de feedback positivo, sem teto.

"Se você tem DRAM, pode vender tokens; sem DRAM, não." Essa frase está se tornando a equação básica da demanda por chips de IA.

As duas suposições de sensibilidade do relatório do Goldman Sachs também reforçam o mesmo julgamento. Se a vida econômica do chip cair de 5 para 3 anos, o ciclo de substituição acelera, e a necessidade acumulada de capital salta de nível. Se a memória por chip for 25% maior do que o esperado – isso muda principalmente a alocação de gastos dentro da pilha de chips, com efeito líquido limitado sobre o total de US$ 7,6 trilhões, mas a direção é a mesma: o dinheiro não será gasto menos.

Final: quem segura a computação

A remoção das restrições de exportação do Fable 5 – proibido em 12 de junho, liberado em 30 de junho, três semanas no total – deu um comentário inesperado a esse paradoxo.

A razão da restrição foi "risco à segurança nacional". A remoção não tem nada a ver com o desaparecimento do risco – surgiram substitutos. Equipes asiáticas como a Tulongfeng lançaram modelos próximos ao nível Mythos durante o período de restrição, e a eficácia do bloqueio rapidamente se anulou. A liberação foi uma questão de realidade, não de boa vontade.

Esse interlúdio se encaixa perfeitamente na linha principal do paradoxo de redução de custos da IA: modelos são substituíveis. Do GPT ao Claude, DeepSeek e modelos de código aberto, ninguém pode monopolizar a própria capacidade da IA – alguém coloca barreiras, outros contornam.

O hardware não segue essa lógica.

GPU não. DRAM não. O tempo de construção de uma fábrica de wafer é medido em anos. A capacidade de produção das máquinas de litografia é fixa. A elasticidade da oferta de silício de alta pureza é quase zero. Tudo isso são leis da física, não estratégias de negócios. Otimizações de software podem reduzir o custo do modelo em mil vezes, mas não podem reduzir um único dia no cronograma de construção de uma fábrica de wafer.

O ponto final da redução de preços dos modelos de IA, se esse paradoxo continuar, não aponta para a eliminação da computação – aponta para a reconcentração do poder de precificação da computação. Não importa qual modelo você use, os tokens precisam rodar nos chips de alguém. Cada centavo que os fabricantes de modelos reduzem nos preços acaba se transformando em receita nos livros de data centers, fábricas de wafer e linhas de produção de memória. Quanto mais agressiva a redução de custos, mais irreversível essa transferência.

Aviso de risco e isenção de responsabilidade

        O mercado tem riscos, invista com cautela. Este artigo não constitui aconselhamento pessoal de investimento e não leva em consideração objetivos de investimento, situação financeira ou necessidades específicas de usuários individuais. Os usuários devem considerar se quaisquer opiniões, pontos de vista ou conclusões neste artigo são adequados às suas circunstâncias específicas. Invista por sua conta e risco.

DRAM-8,10%

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

Recompensa
curtir
Comentário
Repostar
Compartilhar

Comentário

Adicionar um comentário

Sem comentários

Tendências
Ver projetos
#
GateCompletesDividendDistribution
132,91K Popularidade
#
StrategyBuybackSurges12%
1,11M Popularidade
#
IsraelStrikesIranBTCPlunges
67,27K Popularidade
#
PredictWorldCupShare20000U
562,61K Popularidade
#
TrumpDisclosesOver100MBTCETH
3,83M Popularidade

Fixado

sitemap

Quanto mais barata a IA, mais caro o chip.

Redução de preço: mil vezes em três anos

Explosão: despesa total aumentou 320%

Transmissão: armazenamento subiu seis vezes, infraestrutura de chips aponta para US$ 7,6 trilhões

Raiz: Jevons já havia respondido em 1865

Final: quem segura a computação

Tendências

GateCompletesDividendDistribution

StrategyBuybackSurges12%

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

TrumpDisclosesOver100MBTCETH

Fixado