Após um aumento de 83% no preço, os tokens venderam-se rapidamente, o relatório financeiro da Zhipu revela um ponto de inflexão na indústria

2026-04-08 04:57:45

Na terceira semana de fevereiro de 2026, surgiram no OpenRouter, a maior plataforma agregadora de APIs de modelos de IA do mundo, dados históricos: as chamadas semanais de Token dos modelos chineses dispararam para 5,16 biliões, ultrapassando pela primeira vez os 2,7 biliões dos modelos dos EUA no mesmo período. Entre os cinco modelos com maior volume de chamadas no mundo, a China ocupa quatro lugares.

Um ano antes, o panorama nesta plataforma era completamente outra história. A Anthropic sozinha detinha 42% da quota de Token, e os modelos chineses quase não estavam na mesa.

Na mesma semana em que ocorreu esta inversão, a Zhipu divulgou o GLM-5 e, em simultâneo, anunciou um aumento de preços de 83% nas APIs. Numa fase em que a guerra de preços continua a ser o tema dominante da indústria, esta foi a primeira “carta” de aumento de preços dos modelos de IA nacionais — e, depois de aumentados, o mercado ainda assim continuou disposto a pagar pela Zhipu.

A 31 de março, a Zhipu (02513.HK) publicou o seu primeiro relatório anual de resultados após a listagem. No ano fiscal de 2025, a receita foi de 724 milhões de renminbi, +131,9% em termos hominais, mantendo a posição de maior empresa independente de modelos de IA a nível nacional em termos de escala de receitas. No anúncio de resultados, o CEO da Zhipu, Zhang Peng, resumiu a lógica de crescimento da empresa numa frase: “Quando o modelo é suficientemente forte, a própria API é o melhor modelo de negócio.” Ele acrescentou ainda: “A qualidade da inteligência cria o poder de fixação de preços; o uso profundo por parte de empresas e utilizadores cria crescimento com Scaling.”

O ponto central desta prestação de contas não é um número específico de receitas, mas sim o facto de, tal como na Anthropic, a lógica de negócio e de crescimento — e tudo o que está a acontecer — estar a ocorrer na Zhipu. É um ponto de referência a nível de “sistema de coordenadas” para a indústria de modelos de IA doméstica.

O momento de viragem da comercialização dos modelos de IA na China

No segundo semestre de 2024 até ao início de 2025, a indústria chinesa de modelos de IA travou uma guerra de preços feroz.

A Byte Jitou (Doubao) levou o preço das entradas de inferência para 0,0008 yuan por 1.000 tokens; a Alibaba Tongyi Qwen cortou o preço em 97% para modelos principais ao nível do GPT-4; a própria Zhipu também já tinha anunciado uma redução de preços de 90% para o GLM-4-Plus. Nesse período, quase todos os intervenientes faziam a mesma coisa: trocar subsídios por ecossistema e trocar preços baixos por volume de chamadas. Havia excesso de oferta; conquistar utilizadores era a tarefa prioritária.

A guerra de preços cumpriu de facto a sua missão histórica. Depois de os Tokens se tornarem suficientemente baratos, hábitos de uso por parte de programadores individuais e empresas foram sendo cultivados, e a base de volume de chamadas foi sendo estabelecida.

Mas o desfecho da guerra de preços não é “quem é mais barato”, e sim “quem faz primeiro o cliente achar que vale a pena ser caro”.

A 12 de fevereiro de 2026 chegou a viragem. No dia do lançamento do GLM-5, a Zhipu anunciou em simultâneo um ajuste estrutural da tabela de preços do Coding Plan, com um aumento global que parte de 30%. No primeiro trimestre de 2026, o aumento de preços nas APIs da Zhipu atingiu 83%. A reação do mercado não foi fuga, foi corrida às compras — esgotado, venda limitada, pedido de desculpas, tudo num só pacote.

Por que razão aumentos de preço levaram antes à falta de stock?

Coding não é apenas conversação; é um cenário real de produtividade. O GLM-5 mantém-se em primeiro lugar open source em rankings centrais de programação como o SWE-bench Verified, conseguindo completar autonomamente tarefas de engenharia de sistemas como reconstrução do backend e depuração profunda com intervenção humana mínima. Os programadores pagam por um “engenheiro” destes de uma forma completamente diferente da decisão de pagar por um chatbot. O plano Pro de 149 yuan/mês, para programadores, não é uma despesa — é um investimento; o tempo poupado converte-se diretamente em eficiência de entrega e conclusão de projetos.

No anúncio de resultados, Zhang Peng colocou isto de forma direta: “Os programadores são o grupo mais sensível no limite superior da inteligência percebida.” Em 2025, a Zhipu foi a primeira no mercado doméstico a lançar o plano de programação GLM Coding Plan; o número de programadores pagantes ultrapassou rapidamente 242k, e o volume de chamadas de Token aumentou 15 vezes em 6 meses.

Do ponto de vista da estrutura de receitas, este relatório mostra uma imagem totalmente diferente das impressões antigas do mercado: o crescimento explosivo das chamadas de API e uma redução acentuada da participação da receita de privatização. Hoje, as receitas recorrentes de API tornaram-se o principal motor dos resultados da Zhipu; o crescimento já não depende de impulsos por assinatura, mas sim do aumento do volume por si próprio.

Quando o modelo é apenas uma ferramenta de companhia para conversa, o preço é uma variável de custo; quando o modelo consegue entregar um sistema completo, o preço é uma variável de produtividade. No primeiro caso, o teto é a paciência do utilizador; no segundo, o teto é o custo de mão de obra que o utilizador poupa.

Esta mudança reescreveu diretamente a forma como o mercado está a precificar a Zhipu. Empresas orientadas a projetos avaliam por PE; empresas de plataformas avaliam por ARR — duas lógicas de avaliação completamente diferentes. Hoje, na perspetiva do mercado, a Zhipu já não cobra por projeto; cobra pela utilização, como uma renda por chamadas. O primeiro é um negócio intensivo em trabalho; o segundo é economia de plataforma.

Zhang Peng resume a lógica do poder de fixação de preços numa fórmula: “Valor comercial na era da AGI = limite superior da inteligência × escala de consumo de Token”. “O limite superior da inteligência determina o poder de fixação de preços; a escala de consumo de Token determina a dimensão do valor.” Ele acrescenta ainda: “Quando o modelo é suficientemente forte, a própria API é o melhor modelo de negócio. A qualidade da inteligência cria o poder de fixação de preços; o uso profundo por parte de empresas e utilizadores cria crescimento com Scaling.”

Após um aumento de 83%, o volume de chamadas não caiu — subiu. É a primeira validação prática desta avaliação. A Anthropic, do outro lado do oceano, seguiu o mesmo caminho — no fim de 2025, ARR de 9,0 mil milhões de dólares; o produto Claude Code, em 9 meses, atingiu 2,5 mil milhões de dólares.

Quando a programação passou de escrever pequenos trechos de código para completar engenharia de sistemas, o volume de consumo de Tokens e o preço unitário podem subir em simultâneo. A Zhipu está a reproduzir este caminho na China.

“Anthropic da China” entra numa fase de explosão

Para compreender melhor o peso desta prestação de contas da Zhipu, é necessário primeiro olhar para um conjunto de números vindos do outro lado do oceano.

A Anthropic alcançou um crescimento sem precedentes em 15 meses: o ARR passou de 1,0 mil milhões de dólares no final de 2024 para 19,0 mil milhões de dólares em março de 2026. A sua base de utilizadores é apenas 5% da do ChatGPT; contudo, a receita atingiu mais de 40% da da OpenAI. A eficiência de monetização por utilizador é 8 vezes superior à do outro lado. Cerca de 80% das receitas da Anthropic vem de serviços de chamadas de API ao nível empresarial; entre as Fortune 100, 70% são clientes da Claude.

A lição da Anthropic****não está no tamanho que tem, mas no facto de ter provado uma coisa: o número de utilizadores é uma métrica de escala, e a profundidade das chamadas pode transformar-se em dinheiro real.

No anúncio de resultados, Zhang Peng afirmou claramente que a Zhipu foi colocada neste sistema de coordenadas. Ele foi direto ao dizer que a empresa irá “continuar ao longo do caminho comercial da Anthropic na China — tendo a inteligência dos modelos como base e a plataforma de API como motor”.

Os dados estão a concretizar esta avaliação. Em 2025, a receita anual da Zhipu foi de 724 milhões de renminbi, +131,9% em termos homólogos, superando o objetivo definido no início do ano; a margem bruta integrada anual foi de 41%, muito acima do patamar da indústria. A plataforma MaaS API ARR é de cerca de 1,7 mil milhões de renminbi; nos últimos 12 meses, aumentou 60 vezes. A margem bruta da plataforma MaaS aumentou quase 5 vezes para 18,9%.

Mas mais do que os números financeiros, o que melhor explica o estado de funcionamento do “flywheel” é a densidade de “integração”.

Entre as 10 maiores empresas de internet da China, 9 já chamam de forma profunda diariamente os modelos GLM. Nas 24 horas seguintes ao lançamento de cada geração de modelos GLM, obtiveram integrações oficiais com produtos de plataformas de topo como a ByteDance TRAE/Coze (Dingzi), a Alibaba Qoder, a Tencent CodeBuddy, a Meituan CatPaw, a Kuaishou Wanquing, a Baidu Intelligent Cloud e o WPS Office.

Ao olhar para a cauda longa, mais de 4 milhões de utilizadores empresariais e programadores continuam a chamar em ambientes de produção reais, cobrindo mais de 218 países e regiões no mundo. O GLM tornou-se o modelo por defeito em plataformas internacionais de coding como Windsurf e OpenCode, e no OpenRouter o modelo pago está em primeiro lugar no ranking.

A densidade de integrações é precisamente a densidade da insubstituibilidade.

Para o flywheel girar, o ponto de partida é o desempenho do modelo. A série GLM continua a manter o primeiro lugar entre os modelos open source a nível global e o primeiro lugar entre os modelos chineses; entre todos os modelos no mundo, segue de perto o GPT, o Claude e o Gemini, e entra de forma estável no primeiro escalão da IA global.

A forma como o GLM-5 foi apresentado é, por si só, um enunciado de posicionamento. Com a identidade anónima de “Pony Alpha”, chegou ao topo da tabela de popularidade do OpenRouter; programadores do Vale do Silício começaram a especular que era o Claude Sonnet 5 ou o DeepSeek-V4 — após o esclarecimento, já no primeiro dia de lançamento tratou 4,0 mil milhões de Tokens e 206k pedidos.

A melhoria na margem bruta também confirma o aumento da eficiência do flywheel. Através do co-design entre hardware e software, bem como no lado da inferência, o mecanismo de atenção esparsa dinâmica reduziu o custo de implementação para 50% do original, sem perda de desempenho; do lado do cliente, os aumentos de preços desempenharam um efeito de seleção positiva: clientes dispostos a pagar pelo resultado ficam com maior taxa de retenção e profundidade de chamadas.

Zhang Peng descreveu este ciclo positivo como: “O avanço no limite superior da inteligência impulsiona um aumento exponencial no consumo de Tokens — quanto mais forte o modelo, mais profundos os cenários de uso, e maior o volume de chamadas de Tokens.” “O feedback positivo no lado comercial sustenta-nos a investir numa maior capacidade de computação e em I&D, elevando ainda mais o limite superior da inteligência. Este flywheel já começou a girar.”

O próximo ponto de explosão da economia de Tokens

No dia 26 de fevereiro, o CEO da Nvidia, Huang Renxun, na call de resultados, enfatizou repetidamente uma avaliação ao mercado: “Computação é receita, inferência é receita.” Sem capacidade de computação, não há forma de gerar Tokens; sem Tokens, não há forma de gerar crescimento de receitas.

Os dados globais validam esta perspetiva. No ano passado, o volume semanal de chamadas de Token dos 10 principais modelos no OpenRouter disparou de 1,24 biliões para quase 14 biliões, um aumento superior a 10 vezes. Não é apenas que os utilizadores estão a crescer; também a profundidade do consumo de Tokens por utilizador está a subir: cada vez que o Agent conclui uma tarefa, são necessárias mais etapas e mais chamadas a ferramentas; o consumo de Tokens é acumulado passo a passo.

Na era dainternet, o gratuito é o caminho certo, porque o custo marginal do tráfego tende para zero. Na era daIAé completamente diferente:cada inferência consome capacidade de computação, e Tokens têm naturalmente um preço.Isto significaque as empresas de IA, desde o primeiro dia, sentam num modelo de negócio de“cobrança por quantidade”.

Zhang Peng apresentou a sua estrutura de avaliação: as palavras-chave para a Zhipu em 2025 são “limite superior da inteligência”; em 2026, a palavra-chave é “quantidade de Tokens”. “A aplicação, representada por OpenClaw, desencadeia uma onda frenética de consumo de Tokens. Continuaremos a aumentar o investimento, espremer o máximo desempenho de inferência — não para obter lucro no curto prazo, mas para suportar aquela curva exponencial de consumo de Tokens de alta qualidade, que está sempre a subir.”

Nos últimos 12 meses, a Zhipu iterou cinco gerações de modelos, contando precisamente a história de como a quantidade de consumo de Tokens tem vindo a ser ampliada de forma contínua.

Zhang Peng decompôs este caminho de paradigma: na fase de AI coding, o modelo aprende a escrever código, mas essencialmente é um assistente; na fase de Vibe coding, Code is cheap, Idea é que vale a pena; na fase de Agentic engineering, a IA compreende autonomamente requisitos, define planos, escreve, testa e faz iterações e correções como um engenheiro; na fase de long horizon, a IA precisa de trabalhar de forma contínua num horizonte de tempo mais longo, como um especialista experiente, entregando resultados.

Em cada salto, o consumo de Tokens por tarefa aumenta em múltiplos relativamente à fase anterior. Segundo o que se sabe, o****GLM-5.1 que está prestes a ser lançado terá otimizações sistemáticas em torno de long horizon task, precisamente apontando para o próximo patamar.

A explosão do OpenClaw fez com que esta tendência deixasse de ser teoria e se tornasse realidade. Em março de 2026, a Zhipu lançou o Claw Plan; ao fim de dois dias, os utilizadores subscritores ultrapassaram 100k; aos 20 dias, ultrapassaram 400k. O Agent de IA corre 24/7 de forma autónoma; cada instância é um “empregado digital” que continua a consumir Tokens.

A procura está a explodir, e o lado da oferta não pode falhar. O GLM-5 já concluiu a adaptação profunda para 7 plataformas de chips nacionais, incluindo Ascend da Huawei, Moore Threads e Cambricon. Zhang Peng disse que a série GLM já alcançou, em chips nacionais, uma eficiência de inferência comparável à dos chips internacionais topo de gama. Com capacidade de computação autónoma e controlável, a produção de Tokens não ficará estrangulada.

A Zhipu condensou toda esta lógica num conceito: TAC (Token Architecture Capability), força de arquitetura de Tokens. TAC = quantidade inteligente de chamadas × qualidade inteligente × eficiência de conversão económica.

Na perspetiva de Zhang Peng, o critério para medir o valor no futuro deixa de ser quanto de informação se tem, e passa a ser a capacidade de, como arquiteto de Tokens, conduzir modelos grandes e Agents para completar tarefas complexas. “O objetivo da Zhipu é tornar-se infraestrutura para elevar o TAC de toda a sociedade, de modo a que cada gota de Tokens se converta em incrementos económicos entregáveis.”

A Anthropic obteve uma avaliação de 380 mil milhões de dólares e um ARR de 19 mil milhões de dólares com a mesma lógica. Onde está o teto do modelo MaaS na China? Este relatório é o primeiro ponto de coordenadas formal.

No setor dos grandes modelos, “escassez de oferta e excesso de procura” — estas quatro palavras — são mais persuasivas do que qualquer número de relatório financeiro. Quando uma empresa começa a pedir desculpa por “ficar esgotada”, todas as discussões sobre poder de fixação de preços podem terminar.

*O conteúdo acima não constitui recomendação de investimento, não representa as opiniões da plataforma que publica, há riscos no mercado, e é necessário ter cautela ao investir; faça a sua própria avaliação e decisão.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.