A lacuna proposta por David Cahn em 2023 nunca foi preenchida do lado do treinamento. Ela foi preenchida do lado da inferência, e o mercado só começou a levá-la em conta na precificação nas últimas semanas. Quando a Nvidia reestruturou seus relatórios financeiros em torno do "token de serviço", a Cerebras realizou uma oferta pública inicial com mais de 20 vezes a subscrição, e a disputa pelos gargalos já terminou, o verdadeiro problema passou a ser o próximo: quando a inferência se tornar um recurso escasso, onde o valor se acumulará na pilha de poder de processamento.

Seguindo a GPU: de um problema de 200 bilhões de dólares para um de 600 bilhões de dólares

Em 2023, David Cahn, da Sequoia, levantou a questão que paira sobre toda a construção de IA, ou seja, o "problema de 200 bilhões de dólares". Cada dólar gasto em GPU também exige aproximadamente um dólar em energia no data center, portanto, cada ano de CapEx em GPU significa que esses chips precisam gerar cerca de 200 bilhões de dólares em receita para recuperar esse investimento. Mesmo assumindo receitas de IA bastante generosas, ele descobriu uma lacuna de mais de 1250 bilhões de dólares entre o "investimento" e o pagamento real dos clientes finais. A preocupação é direta: as GPUs estão sendo construídas em excesso, além da demanda real.

Um ano depois, a lacuna não só não diminuiu, como aumentou. Na continuação de 2024, com a expansão do CapEx de grandes fabricantes, ela foi redefinida como o "problema de 600 bilhões de dólares". A lógica pessimista se consolidou em uma forma familiar: excesso de construção leva a excesso de oferta, e esse excesso queima capital.

Na verdade, ambos os artigos questionam a mesma coisa: quem preencherá essa lacuna? A resposta nunca apareceu nos livros-razão do lado do treinamento. Ela surge do lado da inferência, e o mercado só começou a levá-la em conta na precificação nas últimas semanas.

IPO da Cerebras e a pressão na inferência

A Cerebras entrou na bolsa na quinta-feira. A oferta foi mais de 20 vezes subscrita, com o preço próximo ao dobro do valor final de ajuste de quarta-feira. A demanda não vem de uma aposta no "próximo Nvidia", mas de algo mais simples: o mercado começou a perceber que o verdadeiro gargalo na IA é a inferência, não o treinamento.

A especialidade da Cerebras é uma arquitetura de chips que torna a inferência extremamente rápida. Não é treinamento, é inferência. E esse é o ponto que empolga Wall Street. O mercado de inferência é recorrente, expandindo-se com o uso. Cada resposta do Claude, cada tarefa executada por um agente consome poder de processamento. O treinamento ocorre uma única vez, a inferência nunca para.

O J.P. Morgan estima o mercado de inferência entre 10 e 50 vezes maior que o de treinamento. Quando as máquinas começam a executar tarefas delegadas por outras máquinas, ou seja, expansão do tipo agentic, a demanda por inferência não cresce com o número de usuários, mas com o poder de processamento em si.

Nvidia redesenha o mapa: a inferência vira destaque

Se a Cerebras representa o despertar do mercado, o último relatório financeiro da Nvidia é uma confirmação do topo da cadeia de produção. No call de resultados mais recente, Jensen Huang deixou claro: a demanda por IA está crescendo de forma parabólica. A razão é simples: a IA agentic já chegou. A IA mainstream passou de inferência pontual para raciocínio lógico, e agora entra na fase de agentes que podem chamar ferramentas e orquestrar tarefas. Huang afirmou: "Tokens agora são lucrativos." Na era da IA, o poder de processamento é receita e lucro.

Isso está reformulando toda a indústria. O treinamento é um custo único de construção de um modelo, enquanto a inferência é um custo operacional recorrente, e o gargalo atual está na inferência, não no treinamento.

A Nvidia incorporou essa visão em seus relatórios financeiros. Agora ela divulga em duas plataformas, não uma: Data Center (centro de dados) e Edge Computing (computação de borda). O centro de dados (aproximadamente 75 bilhões de dólares no trimestre, +92% ano a ano) é subdividido em Hyperscale (cerca de 38 bilhões de dólares, +12% trimestre a trimestre) e ACIE, ou seja, IA na nuvem, industrial e empresarial (cerca de 37 bilhões de dólares, +31%). Uma nova linha é a Edge Computing: 6,4 bilhões de dólares, +29% ano a ano, cobrindo IA agentic e dispositivos físicos que operam na prática, como PCs, estações de trabalho, estações base AI-RAN, robôs e veículos.

Atualmente, a borda representa menos de 8% da receita total, mas a Nvidia já a elevou ao status de "segunda plataforma" ao lado do centro de dados. O sinal é: a inferência está se dividindo em duas frentes, a inferência na nuvem (cloud inference) e a inferência na ponta (endpoint inference), ou seja, IA que precisa ver, mover e agir no mundo físico. O roteiro segue a mesma lógica: a partir do terceiro trimestre, começará a ser entregue o Vera Rubin, com uma capacidade de inferência até 35 vezes maior que a do Blackwell; Huang também apresentou uma nova TAM de 200 bilhões de dólares para o Vera CPU, voltado a cargas agentic. Cada empresa de modelos de ponta espera migrar totalmente para ele desde o primeiro dia.

Quando as maiores empresas do planeta reestruturaram seus relatórios financeiros em torno do "token de serviço", a disputa pelos gargalos foi selada. O restante do texto discute quem captura o valor quando a inferência (e não o treinamento) se torna um recurso escasso.

Vamos definir o escopo. Entre essas duas frentes, o foco aqui é na inferência na nuvem, ou seja, o fornecimento de API token por data centers alugados. A inferência na ponta roda no hardware local, como chips integrados em dispositivos (Nvidia Jetson, RTX, Drive, AI-RAN), sem passar pelo stack de aluguel e agregação de GPU. Aqui, considere como uma amplificação da economia da inferência e uma confirmação da teoria dos gargalos, não como o mercado de Hyperbolic e Venice, que operam na nuvem.

A pressão já começou

Anthropic é a sentinela na mina de carvão. O uso de Claude ultrapassou a capacidade pré-configurada, e reclamações de "corte de conexão" e lentidão na inferência estão dominando as redes, incluindo respostas limitadas, janelas de contexto comprimidas. A solução é pura e simples: mais poder de processamento. Em maio de 2026, a Anthropic assumiu o controle de todo o data center Colossus 1, com mais de 220 mil GPUs Nvidia e 300+ megawatts, dedicado à inferência, não ao treinamento.

Essa capacidade desbloqueou uma série de mudanças nos limites, cada uma sinalizando algo. Em 6 de maio, a Anthropic dobrou o limite de cinco horas do Claude Code, eliminou limites em horários de pico e aumentou significativamente a taxa de API do Opus. Em 13 de maio, aumentou em mais 50% o limite semanal do Claude Code (até 13 de julho). Depois, a partir de 15 de junho, fez o oposto: separou o uso agentic e programático (Agent SDK, modo headless claude -p, pipelines CI) de assinaturas planas, colocando-os em um pool de créditos separado (de 20 a 200 dólares por mês, cobrados por API). Essa última ação resume toda a lógica: a velocidade de consumo de inferência por agentes supera a capacidade de uma assinatura plana, e por isso deve ser precificada como um custo operacional recorrente.

Treinamento é um investimento de capital único. Inferência é um custo operacional recorrente, que se acumula com cada novo usuário e cada novo agente.

Essa cadeia: seis camadas, um gargalo

Cada aplicação de IA está situada em uma cadeia de suprimentos que começa na fábrica de chips da TSMC e termina na ponta da API:

A maioria das empresas possui apenas uma camada. Nvidia controla o hardware, CoreWeave possui servidores bare-metal, Together AI otimiza inferência, OpenRouter gerencia roteamento de modelos via API.

Só há uma exceção.

Hyperbolic: a única empresa que atravessa três camadas

Hyperbolic lançou seu mercado de GPU sob demanda em junho de 2025. Nos primeiros meses, seu número de desenvolvedores ultrapassou 200 mil, abrangendo laboratórios de ponta, buscas e grandes plataformas de consumo.

O mais interessante é sua arquitetura.

Hyperbolic não possui GPUs próprias. Cada GPU vem de neocloud e data centers, incluindo CoreWeave, Lambda Labs, Nebius, além de operadores menores com capacidade ociosa. Parece uma fraqueza, mas na verdade é uma vantagem competitiva.

Ao ficar entre os fornecedores e os consumidores de GPU, Hyperbolic consegue ver dados em tempo real que outros não veem. Sabe quem está comprando que GPU, por qual preço, em que momento. Antes que o excesso de oferta se torne público, ela já percebe, e antes que a demanda impulsione o mercado, ela já enxerga.

Hoje, a vantagem competitiva é essa agregação multi-cloud. Hyperbolic une a capacidade fragmentada de dezenas de nuvens e data centers em um pool padronizado e unificado, permitindo que desenvolvedores aluguem a GPU mais barata disponível em qualquer lugar, sem precisar negociar com cada operadora ou gerenciar múltiplas contas. Quanto mais cloud ela conecta, maior a liquidez, mais rica a base de dados de preços. No futuro, a equipe planeja usar esses dados para modelar curvas de preço de GPU e, eventualmente, usar seu próprio capital para suavizar a oferta e a demanda, atuando como formador de mercado de poder de processamento físico; mas esse objetivo ainda está na fase inicial, e o que realmente está gerando valor no momento é a camada de agregação.

Essa é a roda do flywheel:

Mais cloud → mais oferta agregada

Mais oferta → mercado mais profundo e dados de precificação em tempo real

Dados melhores → roteamento mais inteligente agora, modelos de precificação no longo prazo

Melhor liquidez e preços → mais desenvolvedores → mais nuvens querendo se conectar

Nenhuma outra empresa está tentando fazer isso. Hyperbolic é a única que atua simultaneamente nas três camadas: aluguel de GPU, implantação e API de modelos.

Venice: o espelho

Venice representa de forma mais clara a economia da inferência na camada de aplicação, e é um contraponto útil ao posicionamento da Hyperbolic. É uma aplicação de inferência com foco em privacidade: uma API compatível com OpenAI, com assinaturas para consumidores (Free / Pro / Pro+ / Max), roteando solicitações para cerca de 75 modelos, sendo aproximadamente dois terços de modelos open source ou auto-hospedados (Llama, Mistral, Qwen, DeepSeek), e o restante de modelos proprietários de ponta, de forma anônima. O ponto-chave é que Venice não possui capacidade de processamento própria. Ela aluga GPU de parceiros não divulgados e fornecedores de computação confidencial (NEAR AI Cloud, Phala), pagando às laboratórios de ponta por esse serviço, portanto seu custo de receita é a inferência, não o SaaS hospedado.

O que Venice realmente vende é privacidade. Aqui, "privacidade" não significa transformar poder de processamento público em privado, mas envolver a inferência comercializada com uma camada de garantia: não armazenar dados, não usar para treinar, solicitar de forma anônima, parte da carga de trabalho roda em TEE, de modo que até o operador não consegue ver o conteúdo em texto claro. O hardware subjacente é comum, o diferencial é essa camada de privacidade. E essa camada é estratificada e heterogênea: para modelos open source rodando em hardware controlado ou TEE, é possível chegar perto de uma computação confidencial ponta a ponta; para modelos fechados como Claude ou GPT, a transmissão anônima apenas remove a identidade, enquanto o laboratório de ponta ainda processa seu prompt original. Assim, a privacidade mais forte cobre a parte open source, enquanto a parte de modelos proprietários é "anônima", não "confidencial". A margem de Venice = assinatura menos o custo de inferência pago aos fornecedores, e a parte que ela consegue cobrar a mais do que o preço bruto da API é quase toda sustentada por essa camada de valor agregado de privacidade, o que explica sua margem estreita e a dependência dos preços de transmissão de ponta.

O design de tokens embala essa demanda de inferência. Venice opera com dois tokens: VVV (garantia de staking e acesso à plataforma) e DIEM, que é uma espécie de crédito de inferência, onde cada DIEM equivale a cerca de um dólar de poder de processamento por dia. Assinaturas pagas acionam recompra e queima programada de VVV (Pro / Pro+ / Max, aproximadamente 2 / 5 / 10 dólares), com emissão decrescente em um cronograma fixo: de 6 milhões para 5 milhões, depois 4 milhões de VVV por mês, e uma redução para 3 milhões a partir de 1º de julho. As recompra são reais, mas discretionárias e relativamente pequenas: em abril e maio, foram destruídos cerca de 103 mil dólares, e em junho, lentamente, cerca de 110 mil dólares, bem abaixo dos 200 mil dólares mensais.

O cenário fundamental é mais saudável do que o título sugere. O número de "70 milhões de dólares em ARR" divulgado é quase certamente uma confusão entre renovação de assinatura e aquisição líquida de clientes; uma faixa mais realista de ARR estaria entre 6 e 15 milhões de dólares. Por trás disso, a tração é real: cerca de 136 mil endereços de carteira, aproximadamente 9,9 milhões de visitas mensais ao site (cerca de 330 mil por dia), e novos assinantes Pro em torno de 1.400 por dia. É um negócio real, porém de margens estreitas, cuja sustentabilidade depende do poder de processamento comprado.

E essa é a razão de Hyperbolic estar uma camada acima. Se Venice é um posto de gasolina, Hyperbolic é uma refinaria. Venice compra poder de processamento de uma oferta limitada e comum a todos; Hyperbolic agrega essa oferta fragmentada, padroniza e revende para Venice e outros players. Com o crescimento da demanda por inferência, o valor não só se acumula na aplicação de consumo de poder de processamento, mas também na agregação, roteamento e captura do custo de receita dessas aplicações.

Por que isso importa agora

A Nvidia reestruturou suas finanças em torno do "token de serviço". O IPO da Cerebras mostrou que o mercado já entende que a inferência é o gargalo. A Anthropic está buscando capacidade, confirmando que esse é um problema real. Agentic e physical AI vão ampliar a demanda por vários ordens de grandeza, cruzando as linhas de nuvem e ponta.

E também fecha o ciclo do "problema de 600 bilhões de dólares". A lógica pessimista de Cahn, de excesso de construção e excesso de oferta, provavelmente será confirmada. Mas o excesso de oferta é justamente o melhor cenário para os agregadores de ativos leves: com a queda dos preços de GPU e a fragmentação da oferta em dezenas de nuvens, quem não possui hardware próprio, roteando cargas para as GPUs mais baratas, lucra com a diferença de preço, enquanto os operadores que possuem GPUs depreciando-se enfrentam perdas. Hyperbolic aposta na superação do excesso, não na sua queda.

A empresa que vencerá no final não será aquela que possuir mais GPUs, mas aquela que souber onde estão, a que preço, e que roteia cada carga para o local de menor custo de operação.

Hyperbolic está construindo essa empresa. Sem possuir GPUs, apenas software, atuando em três camadas, mas criando uma camada de agregação de poder de inferência definitiva.

VVV-7,29%

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

1 gostos

Recompensa
1
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
GateIPOAccessSpaceX
6.58M Popularidade
#
StrategyAdds1550BTCatLowerPrices
2.88M Popularidade
#
IsraelStrikesIranBTCPlunges
56.75K Popularidade
#
StrongNonfarmPayrollsRekindleRateHikeFear
1.82M Popularidade
#
PredictNBAChampionWin20000U
853.88K Popularidade

Fixado

Quando a inferência se torna um recurso escasso, quem captura o valor

Tópicos em destaque

GateIPOAccessSpaceX

StrategyAdds1550BTCatLowerPrices

IsraelStrikesIranBTCPlunges

StrongNonfarmPayrollsRekindleRateHikeFear

PredictNBAChampionWin20000U

Fixado