Futuros
Acesse centenas de contratos perpétuos
CFD
Ouro
Plataforma única para ativos tradicionais globais
Opções
Hot
Negocie opções vanilla no estilo europeu
Conta unificada
Maximize sua eficiência de capital
Negociação demo
Introdução à negociação de futuros
Prepare-se para sua negociação de futuros
Eventos de futuros
Participe de eventos e ganhe recompensas
Negociação demo
Use fundos virtuais para experimentar negociações sem riscos
CFD
Derivativos de CFD de ações dos EUA
Ações dos EUA
Acesse ações e ETFs reais dos EUA
Ações de Hong Kong
Negocie ações de qualidade listadas em Hong Kong
Ações da Coreia
SK Hynix
Negocie ações da Coreia reais e invista em ativos populares
Futuros de ações
Alta alavancagem, negociação 24/7
Ações tokenizadas
Respaldado por ativos de ações reais
IPO Access
Desbloqueie o acesso completo a IPO de ações globais
GUSD
Cunhe GUSD para rendimentos de RWA do Tesouro
Atividades de ações
Negocie ações populares e desbloqueie airdrops generosos
Lançamento
CandyDrop
Colete candies para ganhar airdrops
Launchpool
Staking rápido, ganhe novos tokens em potencial
HODLer Airdrop
Possua GT em hold e ganhe airdrops massivos de graça
IPO Access
Desbloqueie o acesso completo a IPO de ações globais
Pontos Alpha
Negocie on-chain e receba airdrops
Pontos de futuros
Ganhe pontos de futuros e colete recompensas em airdrop
Investimento
Simple Earn
Ganhe juros com tokens ociosos
Autoinvestimento
Invista automaticamente regularmente
Investimento duplo
Lucre com a volatilidade do mercado
Soft Staking
Ganhe recompensas com stakings flexíveis
Empréstimo de criptomoedas
0 Fees
Penhore uma criptomoeda para pegar outra emprestado
Centro de empréstimos
Centro de empréstimos integrado
Centro de riqueza VIP
Planos premium de crescimento de patrimônio
Gate Wealth
Assuma o controle do seu futuro financeiro
Fundo Quantitativo
Estratégias quant de alto nível
Apostar
Faça staking de criptomoedas para ganhar em produtos PoS
Alavancagem Inteligente
Alavancagem sem liquidação
USD1 8% a.a.
Sem bloqueio, negocie e saque
Promoções
Centro de atividade
Participe de atividades e ganhe recompensas
Indicação
20 USDT
Convide amigos para recompensas de ind.
Programa de afiliados
Ganhe recomp. de comissão exclusivas
Gate Booster
Aumente a influência e ganhe airdrops
Anúncio
Atualizações na plataforma em tempo real
Blog da Gate
Artigos do setor de criptomoedas
Serviços VIP
Grandes Descontos nas Taxas
Gerenciamento de ativos
Solução completa de gerenciamento de ativos
Institucional
Soluções de ativos digitais para empresas
Desenvolvedores (API)
Conecta-se ao ecossistema de aplicativos da Gate
Transferência Bancária OTC
Deposite e retire moedas fiat
Programa de corretoras
Mecanismos de grandes descontos via API
AI
Gate AI
Seu parceiro de IA conversacional para todas as horas
Gate AI Bot
Use o Gate AI diretamente no seu aplicativo social
GateClaw
Gate Blue Lobster, pronto para usar
Gate for AI Agent
Infraestrutura de IA, Gate MCP, Skills e CLI
Gate Skills Hub
10K+ habilidades
Do escritório à negociação: um hub completo de habilidades para turbinar o uso da IA
Quanto mais barata a IA, mais caro o chip.
Em 30 de junho, a Anthropic lançou o Claude Sonnet 5.
Este é um modelo de médio porte, o "mais produtivo" da série Sonnet. Obteve 63,2 pontos no teste de capacidade de agente SWE-bench Pro – apenas 6 pontos a menos que os 69,2 do principal Opus 4.8. Em outra dimensão, no teste de raciocínio de nível de pós-graduação GPQA-AAA v2, o Sonnet 5 superou o Opus 4.8.
O preço é ainda mais crucial. Durante o período promocional, custa US$ 2 por milhão de tokens de entrada e US$ 10 para saída. O Opus 4.8 custa US$ 5 e US$ 25, respectivamente – o Sonnet 5, com 40% a 60% do preço, entrega mais de 90% da capacidade do principal.
Esta notícia pode ser lida de duas maneiras.
A primeira: a IA ficou mais barata. A redução de custos beneficia a todos, a guerra dos Chatbots continua e os fabricantes de modelos competem intensamente.
A segunda – e é a que o mercado está precificando – quanto mais baratos os modelos, mais caros se tornam a computação e o armazenamento.
No dia do lançamento do Claude Sonnet 5, o índice de semicondutores dos EUA subiu quase 4%. Nos últimos três anos, há uma linha clara na narrativa da IA: a eficiência de inferência eliminaria a demanda por chips. Mas esse julgamento errou em cada ponto de dados.
Redução de preço: mil vezes em três anos
Primeiro, vejamos a linha de redução de preços.
Em 2022, o custo da chamada de API no nível GPT-4 era de cerca de US$ 0,03 por mil tokens. Em 2025, o preço de modelos com desempenho equivalente – de acordo com o Stanford AI Index Report – caiu cerca de 280 vezes. Combinando código aberto e ganhos de eficiência, a redução amplamente aceita no setor é de 1000 vezes.
Não foi apenas um modelo que caiu; todos caíram.
O Sonnet 5 da Anthropic, com densidade de capacidade comparável ao Opus 4.8, custa apenas 40% a 60%. O Gemini Omni Flash do Google gera vídeo a US$ 0,10 por segundo, e o modelo de imagem Nano Banana 2 Lite gera uma imagem em 4 segundos, custando apenas US$ 0,034 por mil imagens – metade do preço da geração anterior. O DeepSeek-V4-Pro reduziu o custo de um milhão de tokens de entrada para US$ 0,035.
A redução de preço não está apenas na tabela de preços.
Em 24 de junho, o The Information informou que a OpenAI encontrou internamente uma técnica de otimização puramente de software – a demanda por GPU em um determinado estágio de computação foi reduzida em mais da metade, e o pool dedicado de GPUs caiu de milhares para centenas. No mesmo mês, a Meta propôs o projeto Vistara: reconectar a memória DDR4 de servidores aposentados usando chips CXL proprietários, combinando-a com DDR5 na proporção de 3:1, reduzindo o custo do servidor de inferência em 25%.
Em 30 de junho, a Stepfun open-sourçou a tecnologia de decodificação especulativa JetSpec – a velocidade de inferência de modelos grandes pode aumentar quase 10 vezes. Isso significa que, para a mesma quantidade de tokens de saída, o número de GPUs necessárias pode cair drasticamente uma ordem de magnitude.
Se a IA fosse uma função tradicional de custo-demanda, esses sinais apontariam para uma coisa: menos chips serão necessários no futuro.
Wall Street temia isso.
No fim de semana em que a DeepSeek lançou o R1 em janeiro, as ações de infraestrutura de IA sofreram a venda mais intensa dos últimos anos. A ação da empresa de nuvem de IA Nebius despencou 40%. A história é simples: modelos chineses de código aberto vendem tokens a US$ 0,1, enquanto as empresas americanas cobram US$ 2, e a demanda por computação inevitavelmente entrará em colapso.
Explosão: despesa total aumentou 320%
Mas o que realmente aconteceu foi o oposto.
Roman Chernin, cofundador da Nebius, lembrou mais tarde: a semana do pânico do DeepSeek "pode ter sido a nossa melhor semana de vendas". A reação imediata do departamento de compras da empresa ao ver a queda drástica de custos não foi cortar o orçamento, mas finalmente poder executar inferências em grande escala.
Em 2024, os gastos globais das empresas com IA generativa foram de cerca de US$ 11,5 bilhões. Em 2025, esse número disparou para US$ 37 bilhões – um aumento de 320% em um ano. De acordo com a pesquisa empresarial da Menlo Ventures, a empresa mediana estava executando "dezenas" de aplicações de IA em 2025, enquanto em 2023 era de 1 a 2.
Os dados de todas as dimensões seguem a mesma curva:
A Uber já havia queimado todo o seu orçamento de IA para o ano em abril de 2026. A AT&T processa atualmente 27 bilhões de tokens por dia – 18 meses atrás, esse número era de 800 milhões. Uma grande seguradora de saúde dos EUA viu seu consumo mensal de tokens saltar de 3 milhões para mais de 150 milhões.
Em termos detalhados, o crescimento vem da sobreposição de três direções.
Em outras palavras, o custo do token caiu para um milésimo, e o número de tokens usados pelo mercado aumentou dezenas de milhares de vezes. O efeito líquido da multiplicação segue apenas uma direção: explosão de despesas.
O consumo de tokens dobra a cada dois meses – várias pistas independentes convergem para o mesmo número. Se traçarmos essa curva exponencial até 2027, os gastos anuais das empresas com IA ultrapassarem US$ 100 bilhões é uma questão aritmética, não uma previsão.
Transmissão: armazenamento subiu seis vezes, infraestrutura de chips aponta para US$ 7,6 trilhões
A demanda estimulada pela redução de preços não ficou no nível do software.
O aumento do preço da memória é o sinal mais direto da transmissão da demanda de IA da camada do modelo para a camada de hardware.
A partir do terceiro trimestre de 2025, os preços spot de DRAM e NAND Flash acumularam aumentos superiores a 300%. O preço dos módulos DDR5 chegou a superar 90% de aumento em um único mês. Ao entrar em 2026, a alta não apenas não parou, como acelerou.
No primeiro trimestre, os aumentos de preços contratuais de DRAM foram revisados de 55%-60% esperados para 90%-95%; NAND de 33%-38% para 55%-60%. A previsão da TrendForce para o segundo trimestre é de mais 58%-63% para DRAM e 70%-75% para NAND.
Tomando como referência um produto de consumo: o kit Acer Predator 32GB DDR5 6000, que estava a 1.300 yuans no final de outubro de 2025, já disparou para 2.700 yuans em janeiro de 2026. Triplicar em três meses, extremamente raro no mercado de bens de consumo.
O negócio de memória da Samsung registrou lucro operacional trimestral recorde no quarto trimestre de 2025 – ultrapassando 20 trilhões de won, cerca de 96,2 bilhões de yuans. O impulso mais fundamental para essa alta de mais de um ano não vem da atualização do consumidor em telefones ou PCs, mas das enormes compras de HBM, SSDs empresariais e DRAM de alta densidade pelos data centers de IA.
Um relatório de maio do Goldman Sachs calculou essa conta ao extremo.
O relatório prevê que o investimento acumulado em infraestrutura global de IA entre 2026 e 2031 será de aproximadamente US$ 7,6 trilhões. Em 2026, US$ 765 bilhões; em 2031, US$ 1,6 trilhão. Com o preço de uma GPU base (baseada no NVIDIA VR200 Rubin) de US$ 80.500, a NVIDIA representa 75% dos gastos totais com computação em cada período.
O Goldman Sachs também questionou um ponto-chave no relatório: se os ASICs (chips especializados) substituírem amplamente as GPUs, será que reduziriam a demanda total?
A resposta depende do cenário. Se a demanda for inelástica – a demanda por computação das empresas é fixa – a substituição por ASICs pode reduzir diretamente a necessidade total de capital. Mas se a demanda for elástica – quanto mais barata a computação, mais se compra – a mudança na combinação de chips remodela principalmente a distribuição de lucros entre diferentes fornecedores, e não o tamanho total dos gastos.
O cenário base do Goldman Sachs adota o último.
As ações americanas também estão se movendo na mesma direção. A SanDisk subiu 857% desde o início do ano, e um relatório da Bernstein em 30 de junho elevou o preço-alvo para US$ 3.000. A AMD subiu 7% em um dia, atingindo máxima histórica. Fabricantes de GPUs, de armazenamento, de empacotamento, de equipamentos para data centers – todos perto de máximas.
O número mais impactante citado em um artigo de revisão do Edgen.tech em 11 de junho é este: o preço dos chips de memória subiu seis vezes no último ano.
O rótulo de "recuperação cíclica" não se encaixa. Seis vezes de aumento, por trás está a reavaliação da demanda de todo o sistema econômico pela infraestrutura física da IA.
Raiz: Jevons já havia respondido em 1865
William Stanley Jevons escreveu um livro em 1865 chamado "A Questão do Carvão".
Sua observação central: após o aperfeiçoamento da máquina a vapor por Watt, o consumo de carvão por unidade caiu drasticamente, mas o consumo total de carvão na Grã-Bretanha aumentou. Porque a melhoria da eficiência tornou a energia a vapor economicamente viável em mais setores – têxteis, ferrovias, mineração, navegação – cada novo cenário criou uma demanda por carvão que antes não existia.
160 anos depois, a mesma fórmula se repete na computação de IA.
As empresas fizeram as contas. Com os preços dos tokens de 2022, a inferência de atendimento ao cliente em tempo real não era economicamente viável. Cenários não urgentes não valiam a pena executar IA. A geração de conteúdo personalizado só era possível em nível de grupo segmentado, não de usuário. Em 2025, com os preços 1000 vezes mais baixos, toda essa "demanda que não existia antes" se tornou necessidade.
Chernin, da Nebius, deu o resumo mais direto: "Cada vez que tornamos a mesma unidade de inteligência mais barata, não estamos reduzindo o consumo, mas aumentando – porque o mesmo orçamento permite resolver tarefas mais complexas."
O mercado ignorou outra força estrutural: o feedback positivo da margem bruta.
A curva da margem bruta da inferência de IA não tem paralelo na história. Uma empresa que oferece API pode começar com uma margem bruta de apenas 10% – treinamento caro, inferência cara. Mas as otimizações de software (fusão de operadores, quantização, decodificação especulativa) reduzem o custo de inferência a cada mês, enquanto os ajustes de preço sempre demoram um pouco mais. Assim, a margem sobe de 10% para 90% mais rápido do que em qualquer setor tradicional.
Margem bruta impulsiona lucro, lucro impulsiona compras adicionais, compras diluem custos – um loop de feedback positivo, sem teto.
"Se você tem DRAM, pode vender tokens; sem DRAM, não." Essa frase está se tornando a equação básica da demanda por chips de IA.
As duas suposições de sensibilidade do relatório do Goldman Sachs também reforçam o mesmo julgamento. Se a vida econômica do chip cair de 5 para 3 anos, o ciclo de substituição acelera, e a necessidade acumulada de capital salta de nível. Se a memória por chip for 25% maior do que o esperado – isso muda principalmente a alocação de gastos dentro da pilha de chips, com efeito líquido limitado sobre o total de US$ 7,6 trilhões, mas a direção é a mesma: o dinheiro não será gasto menos.
Final: quem segura a computação
A remoção das restrições de exportação do Fable 5 – proibido em 12 de junho, liberado em 30 de junho, três semanas no total – deu um comentário inesperado a esse paradoxo.
A razão da restrição foi "risco à segurança nacional". A remoção não tem nada a ver com o desaparecimento do risco – surgiram substitutos. Equipes asiáticas como a Tulongfeng lançaram modelos próximos ao nível Mythos durante o período de restrição, e a eficácia do bloqueio rapidamente se anulou. A liberação foi uma questão de realidade, não de boa vontade.
Esse interlúdio se encaixa perfeitamente na linha principal do paradoxo de redução de custos da IA: modelos são substituíveis. Do GPT ao Claude, DeepSeek e modelos de código aberto, ninguém pode monopolizar a própria capacidade da IA – alguém coloca barreiras, outros contornam.
O hardware não segue essa lógica.
GPU não. DRAM não. O tempo de construção de uma fábrica de wafer é medido em anos. A capacidade de produção das máquinas de litografia é fixa. A elasticidade da oferta de silício de alta pureza é quase zero. Tudo isso são leis da física, não estratégias de negócios. Otimizações de software podem reduzir o custo do modelo em mil vezes, mas não podem reduzir um único dia no cronograma de construção de uma fábrica de wafer.
O ponto final da redução de preços dos modelos de IA, se esse paradoxo continuar, não aponta para a eliminação da computação – aponta para a reconcentração do poder de precificação da computação. Não importa qual modelo você use, os tokens precisam rodar nos chips de alguém. Cada centavo que os fabricantes de modelos reduzem nos preços acaba se transformando em receita nos livros de data centers, fábricas de wafer e linhas de produção de memória. Quanto mais agressiva a redução de custos, mais irreversível essa transferência.
Aviso de risco e isenção de responsabilidade