Quando a inferência se torna um recurso escasso, quem captura o valor

nulo

Autor original: Frank Fu

Fonte original: IOSG Ventures

Aquela brecha apresentada por David Cahn em 2023 nunca foi preenchida do lado do treinamento. Ela foi preenchida do lado da inferência, e o mercado só começou a levá-la em conta na precificação nas últimas semanas. Quando a Nvidia reestruturou seus relatórios financeiros em torno do "token de serviço", e a Cerebras realizou uma oferta pública inicial com mais de 20 vezes de oversubscription, a disputa pelo gargalo já acabou, e a verdadeira questão virou a próxima: quando a inferência se tornar um recurso escasso, em qual camada da pilha de computação seu valor irá se sedimentar.

Seguindo a GPU: de um problema de 200 bilhões de dólares para um de 600 bilhões de dólares

Em 2023, David Cahn, da Sequoia, levantou a questão que paira sobre toda a construção de IA, ou seja, o "problema de 200 bilhões de dólares". Cada dólar gasto em GPUs também exige aproximadamente um dólar em energia para alimentá-las nos data centers, portanto, cada CapEx anual em GPU significa que essas chips devem gerar cerca de 200 bilhões de dólares em receita para recuperar esse investimento. Mesmo assumindo uma receita de IA bastante generosa, ele descobriu que há uma lacuna de mais de 125 bilhões de dólares entre o "investimento" e o pagamento real do cliente final. A preocupação é direta: as GPUs estão sendo construídas em excesso, antecipando-se à demanda real.

Um ano depois, a lacuna não só não diminuiu, como aumentou. Na continuação de 2024, com a expansão do CapEx de grandes fabricantes, Cahn redefiniu o problema como o "problema de 600 bilhões de dólares". A lógica pessimista se consolidou em uma forma familiar: excesso de construção leva a excesso de oferta, e esse excesso queima capital.

Ambos os artigos na verdade fazem a mesma pergunta: quem preencherá essa lacuna? A resposta nunca apareceu na contabilidade do lado do treinamento. Ela surge do lado da inferência, e o mercado só começou a levá-la em conta na precificação nas últimas semanas.

IPO da Cerebras e a pressão na inferência

A Cerebras realizou seu IPO na quinta-feira. A oferta foi mais de 20 vezes oversubscribed, com o preço próximo ao dobro do valor final de ajuste de preço de quarta-feira. A demanda não veio de uma aposta no "próximo Nvidia", mas de algo mais simples: o mercado começou a perceber que, na IA, o verdadeiro gargalo é a inferência, não o treinamento.

A especialidade da Cerebras é uma arquitetura de chips que torna a inferência extremamente rápida. Não é treinamento, é inferência. E esse é o ponto que empolga Wall Street. O mercado de inferência é recorrente, expandindo-se com o uso. Cada resposta do Claude, cada tarefa executada por um agente consome poder de computação. O treinamento acontece uma única vez, a inferência nunca para.

J.P. Morgan estima que o mercado de inferência seja de 10 a 50 vezes maior que o de treinamento. Quando as máquinas começam a executar tarefas delegadas por outras máquinas, ou seja, expansão do tipo agentic, a demanda por inferência não cresce mais com o número de usuários, mas com a capacidade de computação em si.

Nvidia redesenha o mapa: a inferência vira manchete

Se a Cerebras representa o despertar do mercado, o último relatório financeiro da Nvidia é uma confirmação do topo da cadeia de produção. Na teleconferência, Jensen Huang deixou claro: a demanda por IA está crescendo de forma parabólica. A razão é simples: a IA agentic já chegou. A IA mainstream passou de inferência pontual para raciocínio lógico, e agora entra na fase de agentes que podem chamar ferramentas e orquestrar tarefas. Huang afirmou: "Tokens agora são lucrativos." Na era da IA, a capacidade de computação é receita e lucro.

Isso está remodelando toda a indústria. O treinamento é um custo de construção de um modelo, a inferência é um custo operacional recorrente, e o gargalo atual está na inferência, não no treinamento.

A Nvidia incorporou essa visão em seus relatórios financeiros. Agora ela divulga em duas plataformas, não uma: Data Center (centro de dados) e Edge Computing (computação de borda). Data Center (com aproximadamente 75 bilhões de dólares no trimestre, +92% ano a ano) é subdividido em Hyperscale (cerca de 38 bilhões de dólares, +12% trimestre a trimestre) e ACIE, ou seja, IA na nuvem, industrial e empresarial (cerca de 37 bilhões de dólares, +31%). Uma nova linha é a Edge Computing: 6,4 bilhões de dólares, +29% ano a ano, abrangendo IA agentic e IA física em terminais reais, como PCs, estações de trabalho, estações base AI-RAN, robôs e veículos.

Atualmente, a borda representa menos de 8% da receita total, mas a Nvidia já a elevou ao status de "segunda plataforma" ao lado do data center. O sinal é: a inferência está se dividindo em duas frentes, a inferência na nuvem (cloud inference) e a inferência de endpoint na borda (endpoint inference), pois a IA precisa ver, mover e agir no mundo físico. O roteiro segue a mesma lógica: a partir do terceiro trimestre, começará a entrega do Vera Rubin, com uma capacidade de inferência até 35 vezes maior que a do Blackwell; Huang também apresentou uma nova TAM de 200 bilhões de dólares para o Vera CPU, voltado a cargas agentic. Cada empresa de modelos de ponta espera migrar totalmente para ela no primeiro dia.

Quando as maiores empresas do planeta voltaram sua atenção para a reestruturação financeira em torno do "token de serviço", a disputa pelo gargalo foi resolvida. O restante do texto discute quem captura o valor quando a inferência (e não o treinamento) se torna um recurso escasso.

Vamos definir o escopo. Nessa dualidade, o foco é na inferência na nuvem, ou seja, no serviço de API token fornecido por GPU de data center alugadas. A inferência de endpoint roda no próprio hardware do dispositivo (Nvidia Jetson, RTX, Drive, AI-RAN), sem passar pelo stack de aluguel e agregação de GPU. Aqui, considere isso como uma amplificação da economia da inferência e uma confirmação da teoria do gargalo, e não como o mercado das empresas Hyperbolic e Venice, que operam totalmente na nuvem.

A pressão já começou

Anthropic é o canário na mina de carvão. O uso de suas APIs superou em muito a capacidade pré-configurada, e reclamações de "corte de cérebro" do Claude estão dominando a internet, incluindo respostas limitadas, inferência mais lenta e janelas de contexto comprimidas. A solução é pura e simples: mais poder de computação. Em maio de 2026, a Anthropic assumiu o controle de todo o data center Colossus 1, com mais de 220 mil GPUs Nvidia e 300+ megawatts, dedicado à inferência, não ao treinamento.

Essa capacidade desbloqueou uma série de mudanças nos limites, cada uma sinalizando algo. Em 6 de maio, a Anthropic dobrou o limite de cinco horas do Claude Code, cancelou limites em horários de pico e aumentou significativamente a taxa de API do Opus. Em 13 de maio, aumentou em mais 50% o limite semanal do Claude Code (até 13 de julho). Depois, a partir de 15 de junho, fez o oposto: separou o uso agentic e programático (Agent SDK, modo headless claude -p, pipelines CI) de assinaturas planas, colocando-os em um pool de créditos separado (de 20 a 200 dólares por mês, cobrados por API). Essa última ação resume toda a lógica: a velocidade de consumo de inferência pelos agentes excede a capacidade de uma assinatura plana, e por isso deve ser precificada como um custo operacional recorrente.

Treinamento é um investimento de capital pontual. Inferência é um custo operacional recorrente, que se acumula exponencialmente com cada novo usuário e cada novo agente.

Essa cadeia: seis camadas, um gargalo

Cada aplicação de IA está situada em uma cadeia de suprimentos que começa na fábrica de chips da TSMC e termina na API do endpoint:

A maioria das empresas possui apenas uma camada. Nvidia controla o silício, CoreWeave possui hardware bare-metal, Together AI otimiza inferência, OpenRouter gerencia roteamento de modelos API.

Só há uma exceção.

Hyperbolic: a única empresa que atravessa três camadas

Hyperbolic lançou seu mercado de GPU sob demanda em junho de 2025. Nos primeiros meses, seu número de desenvolvedores ultrapassou 200 mil, abrangendo laboratórios de ponta, buscas e grandes plataformas de consumo.

O mais interessante é sua arquitetura.

Hyperbolic não possui uma única GPU própria. Cada GPU vem de neocloud e data centers, incluindo CoreWeave, Lambda Labs, Nebius, além de operadores menores com capacidade ociosa. Parece uma fraqueza, mas na verdade é uma barreira de proteção.

Ao ficar entre os fornecedores e consumidores de GPU, Hyperbolic consegue ver dados em tempo real que outros não veem. Sabe quem está comprando qual GPU, por qual preço, em que momento. Antes que o excesso de oferta se torne público, ela já percebe. Antes que a demanda impulsione o mercado, ela já enxerga.

Hoje, essa barreira é justamente essa agregação multi-cloud. Hyperbolic une a capacidade fragmentada de dezenas de nuvens e data centers em um pool padronizado e unificado, permitindo que desenvolvedores aluguem a GPU mais barata disponível em qualquer lugar, sem precisar negociar com cada operadora ou gerenciar múltiplas contas. Quanto mais cloud ela conecta, maior a liquidez, mais rica a base de dados de preços. No futuro, a equipe planeja usar esses dados para modelar curvas de preço de GPU e, eventualmente, usar seu próprio capital para suavizar a oferta e demanda, atuando como formador de mercado de capacidade física; mas esse objetivo ainda está na fase inicial, e o que realmente está crescendo na camada de agregação.

Essa é a roda girando:

Mais clouds conectadas → maior oferta agregada

Mais oferta → maior profundidade de mercado e dados de precificação em tempo real

Dados melhores → roteamento mais inteligente agora, modelos de precificação a longo prazo

Maior liquidez e preços → mais desenvolvedores → mais clouds querendo se conectar

Nenhuma outra empresa está tentando fazer isso. Hyperbolic é a única que atravessa simultaneamente as camadas de aluguel de GPU, implantação e API de modelos.

Venice, esse espelho

Venice é a manifestação mais clara da economia de inferência na camada de aplicação, e também um contraponto útil à posição da Hyperbolic. É uma aplicação de inferência com foco em privacidade: uma API compatível com OpenAI, com assinaturas para consumidores (Free / Pro / Pro+ / Max), roteando solicitações para cerca de 75 modelos, sendo aproximadamente dois terços de modelos open source ou auto-hospedados (Llama, Mistral, Qwen, DeepSeek), e o restante de modelos proprietários de ponta, de forma anônima. O ponto-chave é que Venice não possui capacidade de computação significativa própria. Ela aluga GPU de parceiros não divulgados e fornecedores de computação confidencial (NEAR AI Cloud, Phala), pagando às laboratórios de ponta por esse serviço, portanto seu custo de receita é a inferência, não o SaaS hospedado.

O que Venice realmente vende é privacidade. Aqui, "privatização" não significa transformar capacidade pública em privada, mas envolver a inferência comercializada com uma camada de garantia: não armazenar dados, não usar para treinar, solicitar de forma anônima, parte da carga de trabalho roda em TEE, de modo que até o operador não consegue ver o conteúdo em texto claro. A capacidade de computação básica é comum, o diferencial é essa camada de privacidade. E essa camada é estratificada e heterogênea: para modelos open source rodando em hardware controlado ou TEE, é possível chegar a uma confidencialidade quase de ponta a ponta; para modelos fechados como Claude ou GPT, a transmissão anônima apenas remove a identidade, enquanto o prompt original ainda é processado pelo laboratório de ponta. Assim, a privacidade mais forte cobre a parte open source, enquanto a parte de modelos proprietários é "anônima", não "confidencial verdadeira". A margem de Venice = preço da assinatura menos o custo de inferência pago aos fornecedores, e a parte que ela consegue cobrar acima do preço do API é quase toda sustentada por essa margem de privacidade, o que explica sua baixa margem e a dependência dos preços de transmissão de ponta.

O design do token embala essa demanda de inferência. Venice opera com dois tokens: VVV (garantia de staking e acesso à plataforma) e DIEM, que é uma espécie de crédito de inferência, onde cada DIEM equivale a cerca de 1 dólar de poder de computação por dia. Assinaturas pagas acionam recompra e queima programada de VVV (Pro / Pro+ / Max, aproximadamente 2 / 5 / 10 dólares), com emissão decrescente em um cronograma fixo: 6 milhões de VVV por mês, caindo para 5 milhões, depois 4 milhões, e em 1º de julho, para 3 milhões. As recompra são reais, mas discretionárias e ainda pequenas: em abril e maio, foram destruídos cerca de 103 mil dólares, e em junho, lentamente, cerca de 110 mil dólares, bem abaixo dos 200 mil dólares mensais.

O cenário fundamental é mais saudável do que o título sugere. O número de "70 milhões de dólares em ARR" que circula publicamente provavelmente é uma confusão entre renovação de assinatura e aquisição líquida de clientes; uma estimativa mais realista fica entre 6 milhões e 15 milhões de dólares em ARR. Por trás disso, há uma tração real: cerca de 136 mil endereços de carteira, aproximadamente 9,9 milhões de visitas mensais ao site (cerca de 330 mil por dia), e cerca de 1.4 mil novas assinaturas Pro por dia. É um negócio real, porém de baixa margem, cuja sustentabilidade depende do poder de computação que ela consegue adquirir.

E é exatamente por isso que a Hyperbolic está uma camada acima. Se Venice é um posto de gasolina, Hyperbolic é uma refinaria. Venice compra capacidade de uma oferta limitada que todos dependem; Hyperbolic agrega essa oferta fragmentada, padroniza e revende para Venice e outros players. Com o crescimento da demanda por inferência, o valor não só se acumula na aplicação de consumo de capacidade, mas também na agregação, roteamento e captura do custo de receita dessas aplicações.

Por que isso importa agora

A Nvidia reestruturou suas finanças em torno do "token de serviço". O IPO da Cerebras mostrou que o mercado já entende que a inferência é o gargalo. A Anthropic está buscando capacidade em vários lugares, confirmando que esse é um problema real. Agentic e IA física vão ampliar a demanda por várias ordens de grandeza, cruzando as linhas de nuvem e de borda.

E também fecha o ciclo do "problema de 600 bilhões de dólares". A lógica pessimista de Cahn, de excesso de construção e excesso de oferta, provavelmente será confirmada. Mas o excesso é justamente a melhor oportunidade para os agregadores de ativos leves: com a queda dos preços de GPU e a fragmentação da oferta em dezenas de nuvens, quem não possui hardware próprio e roteia cargas de trabalho para a GPU mais barata consegue lucrar com a diferença de preço, enquanto os operadores que possuem GPUs depreciando-se continuamente assumem perdas. Hyperbolic aposta na superação do excesso, não na sua queda.

A empresa que vencerá no final não será aquela que possuir mais GPUs, mas aquela que souber dizer onde estão as GPUs, a que preço, e roteá-las para onde a carga de trabalho possa rodar com menor custo.

Hyperbolic está construindo essa empresa. Sem possuir GPUs, apenas software, atuando em três camadas, mas criando a camada de agregação definitiva de capacidade de inferência.

VVV-7,29%
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • Comentário
  • Repostar
  • Compartilhar
Comentário
Adicionar um comentário
Adicionar um comentário
Sem comentários
  • Fixado