É um modelo de gama média, o "mais produtivo" da série Sonnet. No teste de capacidade de agente SWE-bench Pro, obteve 63,2 pontos — apenas 6 pontos abaixo dos 69,2 do flagship Opus 4.8. Noutra dimensão, no teste de raciocínio de nível de pós-graduação GPQA-AAA v2, o Sonnet 5 superou o Opus 4.8.

O preço é ainda mais crucial. Durante o período promocional, cobra 2 dólares por milhão de tokens de entrada e 10 dólares por saída. O Opus 4.8 tem preços correspondentes de 5 e 25 dólares — o Sonnet 5, com 40 a 60% do preço, oferece mais de 90% da capacidade do flagship.

Esta notícia pode ser lida de duas formas.

Primeira: a IA tornou-se mais barata. A descida de custos beneficia todos, a guerra dos chatbots continua, os fabricantes de modelos competem ferozmente.

Segunda — e é esta que o mercado está a precificar — quanto mais baratos os modelos, mais caros se tornam o poder computacional e o armazenamento.

No dia do lançamento do Claude Sonnet 5, o índice de semicondutores dos EUA subiu quase 4%. Nos últimos três anos, houve uma linha clara na narrativa da IA: a eficiência de inferência eliminaria a procura por chips. Mas este julgamento falhou em todos os pontos de dados.

Descida de preços: mil vezes em três anos

Vejamos primeiro a linha da descida de preços.

Em 2022, o custo de chamada da API de nível GPT-4 era cerca de 0,03 dólares por mil tokens. Em 2025, o preço de modelos de nível de desempenho equivalente — segundo o AI Index Report da Stanford — caiu cerca de 280 vezes. Combinando com o efeito do código aberto e ganhos de eficiência, a redução geralmente aceite na indústria é de 1000 vezes.

Não foi apenas um modelo que desceu; todos os fabricantes baixaram.

O Sonnet 5 da Anthropic compete com o Opus 4.8 em densidade de capacidade, com um preço de apenas 40 a 60%. O Gemini Omni Flash da Google custa 0,10 dólares por segundo de geração de vídeo, o modelo de imagem Nano Banana 2 Lite gera uma imagem em 4 segundos e custa apenas 0,034 dólares por mil — metade da geração anterior. O DeepSeek-V4-Pro reduziu o custo de milhões de tokens de entrada para 0,035 dólares.

A descida de preços não está apenas na tabela de preços.

A 24 de junho, o The Information noticiou que a OpenAI encontrou internamente uma otimização puramente de software — a procura por GPU numa determinada operação foi reduzida em mais de metade, o conjunto dedicado de GPU caiu de milhares para centenas. No mesmo mês, a Meta propôs o plano Vistara: reutilizar memória DDR4 de servidores retirados através de um chip CXL proprietário, combinando com DDR5 numa proporção de 3:1, reduzindo o custo do servidor de inferência em 25%.

A 30 de junho, a Step abriu o código da tecnologia de descodificação especulativa JetSpec — a velocidade de inferência de grandes modelos pode ser aumentada quase 10 vezes. Isto significa que, para o mesmo volume de saída de tokens, o número de GPUs necessárias pode cair drasticamente uma ordem de grandeza.

Se a IA fosse uma função custo-procura tradicional, estes sinais apontariam para uma coisa: menos chips necessários no futuro.

Wall Street temia isto.

No fim de semana de janeiro em que a DeepSeek lançou o R1, as ações de infraestruturas de IA sofreram a maior venda dos últimos anos. As ações da empresa de cloud AI Nebius caíram 40%. A narrativa era simples: os modelos open source chineses vendem tokens a 0,1 dólares, as empresas americanas a 2 dólares, a procura por poder computacional colapsaria.

Explosão: despesa total subiu 320%

Mas o que realmente aconteceu foi o oposto completo.

Roman Chernin, cofundador da Nebius, recordou mais tarde: a semana de pânico causada pela DeepSeek "foi provavelmente a melhor semana de vendas". A primeira reação dos departamentos de compras ao ver a queda dramática dos custos não foi cortar o orçamento, mas sim finalmente poder executar inferência em larga escala.

Em 2024, a despesa total global em IA generativa das empresas foi de cerca de 11,5 mil milhões de dólares. Em 2025, este número disparou para 37 mil milhões — um aumento de 320% num ano. Segundo o inquérito empresarial da Menlo Ventures, a empresa mediana executava "dezenas" de aplicações de IA em 2025, contra 1 a 2 em 2023.

Os dados de várias dimensões seguem a mesma curva:

A Uber já tinha queimado todo o orçamento de IA para 2026 em abril de 2026. A AT&T processa atualmente 27 mil milhões de tokens por dia — há 18 meses, esse número era de 800 milhões. Uma grande seguradora de saúde americana viu o consumo mensal de tokens saltar de 3 milhões para mais de 150 milhões.

Analisando em detalhe, o crescimento veio de três direções sobrepostas.

Primeiro, a difusão de aplicações. Cada departamento de marketing usa 3 ferramentas de IA, vendas 4, apoio ao cliente 2, mais jurídico, RH, finanças — de 2 para dezenas, é um salto de ordem de grandeza.

Segundo, a profundidade de cada aplicação. Tomando a IA de apoio ao cliente como exemplo: em 2023, cerca de 500 interações por dia, cada uma com cerca de 800 tokens, terminando após o diálogo. Em 2025, 15 000 interações por dia, cada uma com cerca de 4500 tokens, e cada interação desencadeia mais 3 a 5 inferências subsequentes — análise de sentimentos, previsão de escalada, avaliação de qualidade — tudo empilhado na mesma entrada.

Terceiro, a própria complexidade dos modelos aumentou. De modelos de 7B parâmetros de turno único, para agentes de raciocínio multi-passo com mais de 70B, cada inferência interna consome dezenas a centenas de vezes mais tokens do que a interação linear.

Por outras palavras, o custo por token caiu para um milésimo, o número de tokens usados pelo mercado aumentou dezenas de milhares de vezes. O efeito líquido multiplicado tem apenas uma direção: explosão da despesa.

O consumo de tokens duplica a cada dois meses — múltiplas linhas independentes convergem para o mesmo número. Projetando esta curva exponencial para 2027, a despesa anual empresarial em IA ultrapassar os 100 mil milhões de dólares é uma questão de aritmética, não de previsão.

Transmissão: armazenamento subiu seis vezes, infraestrutura de chips aponta para 7,6 biliões

A procura estimulada pela descida de preços não ficou na camada de software.

O aumento dos preços da memória é o sinal mais direto da transmissão da procura de IA da camada de modelos para a camada de hardware.

A partir do terceiro trimestre de 2025, os preços spot de DRAM e NAND Flash acumularam aumentos superiores a 300%. Os módulos DDR5 subiram mais de 90% num único mês. Entrando em 2026, os aumentos não só não pararam, como aceleraram.

No primeiro trimestre, os aumentos de preços contratuais de DRAM foram revistos em alta de 55%-60% para 90%-95%; NAND de 33%-38% para 55%-60%. No segundo trimestre, a previsão da TrendForce é de DRAM subir mais 58%-63% e NAND mais 70%-75%.

Tomando como referência produtos de consumo: o kit Acer Predator 32G DDR5 6000, no final de outubro de 2025, ainda custava 1300 yuan, mas em janeiro de 2026 já disparou para 2700 yuan. Triplicar em três meses é extremamente raro no mercado de consumo.

O negócio de memória da Samsung registou no quarto trimestre de 2025 um lucro operacional trimestral histórico — ultrapassou 20 biliões de won, cerca de 96,2 mil milhões de yuan. E o motor mais fundamental deste aumento ao longo de mais de um ano não foi a atualização do ciclo de consumo de telemóveis ou PCs, mas sim as enormes aquisições de HBM, SSD empresariais e DRAM de alta densidade por parte dos centros de dados de IA.

Um relatório de maio da Goldman Sachs levou esta conta ao extremo.

O relatório prevê que, entre 2026 e 2031, as despesas de capital cumulativas globais em infraestruturas de IA sejam de cerca de 7,6 biliões de dólares. 765 mil milhões em 2026, subindo para 1,6 biliões em 2031. Destes, com base num GPU de referência (NVIDIA VR200 Rubin) a 80 500 dólares, a NVIDIA representa 75% da despesa total em poder computacional em cada período.

A Goldman Sachs também levantou uma questão crucial no relatório: se os ASICs (chips dedicados) substituírem largamente os GPUs, isso reduzirá a procura total?

A resposta depende da situação. Se a procura for inelástica — a necessidade de poder computacional das empresas é fixa — a substituição por ASICs pode reduzir diretamente a necessidade total de capital. Mas se a procura for elástica — quanto mais barato o poder computacional, mais se compra — a mudança na composição dos chips remodela principalmente a distribuição de lucros entre diferentes fornecedores, e não a escala total da despesa.

O cenário base da Goldman Sachs escolheu o último.

Os preços das ações dos EUA também se movem na mesma direção. A SanDisk subiu 857% desde o início do ano, e a Bernstein, num relatório de 30 de junho, elevou o preço-alvo para 3000 dólares. A AMD subiu 7% num dia, atingindo um máximo histórico. Fabricantes de GPUs, de armazenamento, de encapsulamento, de equipamentos para centros de dados — todos perto de máximos.

O número mais impactante citado num artigo de revisão da Edgen.tech a 11 de junho: o preço dos chips de memória aumentou seis vezes no último ano.

O rótulo de "recuperação cíclica" não se aplica. Algo que aumentou seis vezes tem por trás uma reavaliação de toda a procura do sistema económico pelas infraestruturas físicas da IA.

Raiz: Jevons já respondeu em 1865

William Stanley Jevons escreveu um livro em 1865 chamado "A Questão do Carvão".

A sua observação central era: após a melhoria da máquina a vapor por Watt, o consumo de carvão por unidade caiu drasticamente, mas o consumo total de carvão no Reino Unido aumentou, em vez de diminuir. Porque o ganho de eficiência tornou a energia a vapor economicamente viável em mais indústrias — têxteis, caminhos-de-ferro, mineração, transporte marítimo — cada novo cenário criou uma procura de carvão que antes não existia.

160 anos depois, a mesma fórmula repete-se no poder computacional da IA.

As empresas fizeram as contas. Ao preço do token de 2022, a inferência em tempo real para diálogos de apoio ao cliente não era economicamente viável. Cenários não urgentes não valiam a pena executar com IA. A geração de conteúdo personalizado só era possível a nível de segmento de grupo, não a nível de utilizador. Em 2025, com uma descida de preço de 1000 vezes, estas "procura que antes não existiam" tornaram-se todas necessidades básicas.

Chernin, da Nebius, deu o resumo mais direto: "Cada vez que tornamos a mesma unidade de inteligência mais barata, não estamos a reduzir o consumo, mas sim a aumentá-lo — porque o mesmo orçamento pode resolver tarefas mais complexas."

O mercado ignorou outra força estrutural: o feedback positivo da margem bruta.

A curva da margem bruta da inferência de IA não tem paralelo na história. Uma empresa que fornece API pode começar com uma margem bruta de apenas 10% — os modelos são caros de treinar e inferir. Mas as otimizações de software (fusão de operadores, quantização, descodificação especulativa) reduzem o custo de inferência todos os meses, enquanto os ajustes de preços estão sempre atrasados. Assim, a margem bruta sobe de 10% para 90% muito mais rapidamente do que em qualquer indústria tradicional.

A margem bruta impulsiona os lucros, os lucros impulsionam as compras, as compras diluem os custos — um ciclo de feedback positivo, sem teto.

"Se tens DRAM, podes vender tokens; se não tens DRAM, não podes vender tokens." Esta frase está a tornar-se a equação básica da procura de chips de IA.

Duas hipóteses de sensibilidade do relatório da Goldman Sachs também aprofundam o mesmo juízo. Se a vida económica dos chips passar de 5 para 3 anos, o ciclo de substituição acelera e a necessidade cumulativa de capital sobe diretamente para um novo patamar. Se a memória por chip for 25% superior ao esperado — isso altera principalmente a distribuição de despesa dentro da pilha de chips, com um impacto líquido limitado no total de 7,6 biliões, mas a direção é a mesma: o dinheiro não será gasto a menos.

Fim: quem detém o poder computacional

O levantamento da proibição de exportação do Fable 5 — proibido a 12 de junho, levantado a 30 de junho, três semanas no total — deu uma nota inesperada a este paradoxo.

A razão para a proibição foi "risco para a segurança nacional". O levantamento não teve nada a ver com o desaparecimento do risco — surgiu uma alternativa. Equipas asiáticas como a Tulongfeng lançaram modelos próximos do nível Mythos durante o período de proibição, e o poder de dissuasão do bloqueio rapidamente se anulou. O levantamento foi uma imposição da realidade, sem relação com boa vontade.

Este episódio encaixa-se perfeitamente na linha principal do paradoxo da redução de custos da IA: os modelos são substituíveis. Do GPT ao Claude, ao DeepSeek, aos modelos open source, ninguém pode monopolizar a capacidade da IA em si — se alguém coloca barreiras, outros contornam.

O hardware não segue esta lógica.

GPU não. DRAM não. O ciclo de construção de uma fábrica de wafers mede-se em anos. A capacidade de produção de máquinas de litografia é fixa. A elasticidade da oferta de silício de alta pureza é quase zero. Tudo isto são leis da física, não estratégias de negócio. As otimizações de software podem reduzir o custo dos modelos mil vezes, mas não podem reduzir um único dia do ciclo de construção de uma fábrica de wafers.

O fim da descida de preços dos modelos de IA, se este paradoxo continuar, não aponta para a remoção do poder computacional — aponta para a reconcentração do poder de fixação de preços do poder computacional. Independentemente do modelo que uses, os tokens terão de correr no chip de alguém. Cada cêntimo que os fabricantes de modelos competem em preço acaba como receita nos livros dos centros de dados, fábricas de wafers e linhas de produção de armazenamento. Quanto mais feroz a redução de custos, mais irreversível esta transferência.

Aviso de risco e termos de isenção de responsabilidade

        O mercado tem riscos, o investimento requer cautela. Este artigo não constitui aconselhamento de investimento pessoal e também não considera os objetivos de investimento, situação financeira ou necessidades específicas de utilizadores individuais. Os utilizadores devem considerar se quaisquer opiniões, pontos de vista ou conclusões neste artigo se adequam à sua situação específica. Qualquer investimento baseado neste artigo é da responsabilidade do próprio.

DRAM2,31%

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
GateCompletesDividendDistribution
132,91K Popularidade
#
StrategyBuybackSurges12%
1,11M Popularidade
#
IsraelStrikesIranBTCPlunges
67,27K Popularidade
#
PredictWorldCupShare20000U
562,61K Popularidade
#
TrumpDisclosesOver100MBTCETH
3,83M Popularidade

Fixado

Quanto mais barata a IA, mais caro o chip.

Descida de preços: mil vezes em três anos

Explosão: despesa total subiu 320%

Transmissão: armazenamento subiu seis vezes, infraestrutura de chips aponta para 7,6 biliões

Raiz: Jevons já respondeu em 1865

Fim: quem detém o poder computacional

Tópicos em destaque

GateCompletesDividendDistribution

StrategyBuybackSurges12%

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

TrumpDisclosesOver100MBTCETH

Fixado