Por trás do aumento de 31,8%, a venda de API pela Zhipu foi concluída?

Por: Arcy

Ontem, a Zhipu divulgou os seus resultados financeiros referentes ao ano inteiro de 2025, que foi também o seu primeiro relatório após a abertura de capital.

Ao longo do ano, a receita atingiu 724 milhões de yuans, um aumento de 131,9%; mas, com o impulso dos 3.18 mil milhões de yuans em investimento em I&D, o prejuízo líquido ajustado chegou aos 3.18B de yuans.

Embora tenha perdido tanto, a reação do mercado tem sido extremamente positiva. Hoje, as ações da Zhipu subiram 31,8%.

Entre as razões, a mais importante é que vender APIs parece, à primeira vista, ter ficado finalmente “no caminho certo”.

Em 2025, a receita proveniente da venda de APIs subiu de 48M de yuans em 2024 para 190 milhões de yuans, um crescimento de 296%. Ao mesmo tempo, a administração da Zhipu mencionou de forma explícita numa conferência telefónica que, atualmente, o ARR do serviço de API ronda os 250 milhões de dólares e que se espera que chegue a 1 mil milhões de dólares até ao fim do ano.

Mais importante ainda, isto não é um caso isolado. Nas outras empresas de grandes modelos, também começámos a observar gradualmente tendências semelhantes: o volume de chamadas de Token está a aumentar e a API está a tornar-se uma das vias de monetização mais diretas.

Então, como devemos encarar este fenómeno? Hoje vamos abordar este tema em conjunto com os relatórios financeiros da Zhipu.

/ 01 /

Crescimento do modelo base, apoiado na venda de APIs

Nesta divulgação financeira da Zhipu, a mudança mais digna de atenção é a migração na estrutura de receitas.

A implementação em nuvem tornou-se a fonte de crescimento mais central. O que se entende por implementação em nuvem é, na essência, o serviço de API. Em 2025, esta parcela de receita subiu de 48M de yuans em 2024 para 190 milhões de yuans, um aumento de 296%; a participação da receita também aumentou de 15,5% para 26,3%.

O crescimento das APIs assenta numa lógica central: o aumento do volume de chamadas.

E, por trás disso, não deixa de contar com o impulso do OpenClaw. Quando o Agent começa a executar tarefas de forma automática, uma única necessidade corresponde muitas vezes a múltiplas rondas de chamadas; o consumo de Token é multiplicado em grande escala, e, assim, o volume de chamadas de API sobe.

Gradualmente, forma-se um consenso na indústria: quando os grandes modelos ganham capacidade de executar tarefas de longo alcance, as chamadas deixam de ficar apenas em entradas e saídas isoladas e evoluem para um processo sistematizado e sustentável de funcionamento contínuo.

Nessa estrutura, o Token em si torna-se a unidade de faturação mais direta e, sobretudo, a mais certa.

Por outras palavras, quando a capacidade do modelo é suficientemente forte, a própria API tende a convergir para o modelo de negócio comercial mais claro para grandes modelos.

Esta tendência está a tornar-se a escolha comum dos fornecedores de grandes modelos.

No estrangeiro, avançaram ainda mais cedo. A Anthropic obtém cerca de 80% da sua receita a partir de serviços de chamadas de API a nível empresarial; na essência, trata-se de um sistema de cobranças centrado no consumo de Token.

No mercado interno, também se está a aproximar rapidamente desta estrutura.

Atualmente, empresas-chave de modelos base no país, como Zhipu AI, MiniMax e as receitas centrais do lado da Mínima do Luar (Moon of the Dark Side), estão gradualmente a convergir para a monetização via chamadas de API; o MaaS (Model as a Service) tornou-se a principal via para captar o crescimento.

A administração da Zhipu referiu de forma explícita numa conferência telefónica que o ARR do serviço de API ronda atualmente os 250 milhões de dólares e que se espera que atinja 1 mil milhões de dólares até ao fim do ano. No futuro, a empresa também dará ainda mais ênfase a serviços de API padronizados. Em 2026, prevê-se que os serviços de API e as implementações localizadas fiquem cada um com cerca de metade; e, nos anos seguintes (2-3), o foco será ainda mais inclinado para as APIs.

Mudanças semelhantes também estão a acontecer na MiniMax.

Em 2025, a receita do seu open platform e de serviços empresariais atingiu 25.96M de dólares, um aumento de 197,8%; a participação da receita subiu de 28,6% para 32,8%.

Até fevereiro de 2026, o ARR da empresa já ultrapassou 150 milhões de dólares; face aos 79 milhões de dólares do ano fiscal de 2025, isso representa um crescimento em dobro. O principal motor do crescimento é, mais uma vez, o aumento do consumo de Token, especialmente a expansão dos cenários de assistente de codificação e de agentes.

O Goldman Sachs estima que, em 2026, a MiniMax terá uma participação de receita do open platform (API) de cerca de 40%.

A consolidação do modelo de negócio de grandes modelos significa que a forma de medir o valor também fica mais clara: de “indicadores de capacidade”, para “medição por Token”.

/ 02 /

Por detrás da divergência de rotas, duas abordagens para resolver o problema

À medida que a IA entra na fase de aplicações, uma questão começa a ficar concreta: quando a capacidade dos modelos converge gradualmente, qual é a verdadeira competitividade central dos grandes modelos?

Sobre esta questão, a Zhipu e a MiniMax apresentam duas soluções diferentes.

A lógica da Zhipu é perseguir o limite máximo mais extremo do modelo.

Zhang Peng propôs o conceito de TAC (Token Architecture Capability, capacidade da arquitetura de Token). Em essência, pode ser decomposto em três pontos: escala de chamadas, qualidade das chamadas e capacidade de converter isso em receita.

O seu julgamento central é: a qualidade inteligente determina o poder de fixação de preços.

A Zhipu entende que: “Com a evolução dos Agent, os Tokens também serão estratificados. Tokens de baixa complexidade e normalizados irão para preços baixos ou mesmo gratuitos; apenas os Tokens de alta complexidade e alta fiabilidade de alta qualidade terão poder de fixação de preços sustentável.”

Este ponto já se reflecte em dados. No primeiro trimestre, a Zhipu aumentou o preço das suas APIs em 83%, mas a procura não diminuiu; pelo contrário, mostrou um cenário de falta de oferta, com o volume de chamadas a crescer 400%.

Se a Zhipu AI está a falar de “a qualidade determina o poder de fixação de preços”, então a MiniMax está, na realidade, a sustentar uma lógica diferente: a competitividade do modelo vem de “diferenciação de percursos” e “eficiência”.

A MiniMax escolheu uma via que não é comum—desenvolvimento self-研 (pesquisa e desenvolvimento próprios) de multimodalidade com quatro grandes modalidades (texto, vídeo, voz e música) em paralelo. Este ponto não é frequente entre os fornecedores de grandes modelos atuais.

O núcleo desta rota não está em “ter muitos”, mas em “ser amplo”.

Na perspetiva de Yan Junjie, o valor das empresas de plataforma na era da IA é, na essência: densidade de inteligência × throughput de Token.

O significado da multimodalidade é amplificar o throughput de Token sem reduzir de forma significativa a densidade de inteligência. Porque o que esta mudança afecta não é o limite máximo de capacidade, mas o limiar de utilização.

Quando o produto inclui formas de interação como imagens e voz, os custos de compreensão do utilizador e o limiar de operação diminuem claramente, e a base de utilizadores também se expande para grupos mais vastos, incluindo idosos, crianças e outros grupos que, de outra forma, seriam difíceis de abranger.

Isto, na verdade, já aconteceu uma vez na internet móvel—do feed de informação com imagens e texto ao boom do vídeo curto; no fundo, ambos obtiveram um salto na taxa de penetração ao reduzir o limiar de interação.

Voltemos à eficiência. A outra linha principal da MiniMax é a eficiência extrema na utilização de recursos.

Em 2025, a empresa investiu 253 milhões de dólares em I&D, um aumento de 33,8%, claramente inferior à taxa de crescimento da receita de 158,9%.

Em comparação, a estratégia da Zhipu AI é mais próxima do “alta aposta, alto risco”.

Em 2025, a receita da Zhipu foi de 724 milhões de yuans, o que corresponde a despesas de I&D de 3,18 mil milhões de yuans; a taxa de despesas de I&D foi de 439%. No mesmo período, a receita da MiniMax foi de 540 milhões de yuans, despesas de I&D de 1.74B de yuans, e a taxa de despesas de I&D foi de 323%.

Em termos de eficiência operacional, por cada 1 yuan de receita que a Zhipu obtém, há aproximadamente 4,4 yuans de prejuízo; no caso da MiniMax, é de 3,2 yuans. Em termos de eficiência de pessoas, a Zhipu tem cerca de 660 mil yuans (ou 660 mil trabalhadores) e a MiniMax chega a 1,26 milhões.

Naturalmente, uma parte destas diferenças provém do modelo de negócio: a MiniMax depende mais das receitas de produtos, enquanto a Zhipu continua a basear-se principalmente em implementações localizadas.

Mas, mesmo assim, a divergência entre as duas vias continua clara:

De um lado, procura-se o “limite máximo de inteligência”, ganhando poder de fixação de preços através do aumento de capacidade;

Do outro, optimiza-se “eficiência e cobertura”, expandindo a escala de utilização para amplificar o throughput de Token.

Em essência, trata-se do mesmo tipo de fórmula; apenas existem duas soluções totalmente diferentes.

/ 03 /

No oligopólio está a maior certeza do negócio dos modelos base

Deixando de lado a questão da avaliação, esta atividade dos fornecedores de modelos já começa a delinear um contorno relativamente claro.

O negócio dos modelos base não é como o software tradicional.

O software tradicional é caracterizado por um alto investimento no início, e uma recuperação lenta mais tarde; mas, no caso dos modelos base, os custos aumentam de forma “em degraus”, enquanto a receita nem sempre engrossa em paralelo—e pode mesmo ser constantemente comprimida à medida que a concorrência se intensifica.

Visto deste ângulo, parece uma estrutura naturalmente “intrinsecamente frágil”. Mas o curioso é que esta estrutura, em vez disso, aponta para outro resultado:

Ela tende naturalmente a caminhar para o oligopólio.

Porque apenas um número muito reduzido de empresas consegue suportar continuamente um nível de investimento desta magnitude. Em termos de forma comercial, é mais semelhante a uma bateria ou a uma fábrica de wafers: o investimento inicial é enorme; mas, uma vez que o lugar é assegurado, há poucos concorrentes e a “torta” ainda é suficientemente grande.

Além disso, os grandes modelos têm também um ponto mais subtil: não se trata totalmente de um mercado de “o vencedor fica com tudo”, sendo mais próximo de um mercado estratificado.

No topo, mesmo que o modelo tenha apenas uma vantagem de 5% no desempenho, em cenários complexos orientados para eficiência, como coding, essa vantagem pode ser amplificada num prémio de mais de 50%, devido ao efeito multiplicador.

Mas, ao mesmo tempo, nem todas as tarefas exigem o modelo mais forte.

Assim, o mercado estratifica-se de forma natural: a camada superior capta o prémio, a camada média roda em escala e a camada de base lida com as necessidades de cauda longa. E mesmo entre diferentes níveis, pode existir algum tipo de “fluxo de Token”—tarefas complexas sobem, tarefas simples descem.

Mesmo que não consiga atingir o SOTA global, atingir o SOTA num domínio específico ainda é uma via válida.

E, dentro desta estrutura, a eficiência é também uma variável extremamente importante.

Porque quase não existe efeito de rede neste setor, e os custos de mudança do utilizador são muito baixos. Isto significa que, desde que uma empresa consiga criar um modelo de “90 pontos” e com um preço mais baixo, pode rapidamente aumentar a escala.

Neste processo, a eficiência também se tornará uma variável-chave no processo de comercialização.

Devido à ausência de efeitos de rede, como os custos de mudança do utilizador são baixos, desde que haja uma empresa capaz de produzir um modelo de “90 pontos” e com um preço mais baixo, também consegue rapidamente expandir o volume.

A razão é muito direta: em alguns cenários, não é necessário o modelo mais forte. Quando a diferença de desempenho é limitada, o preço torna-se o fator decisivo.

E a base do preço é, em essência, o custo. Isso não depende apenas da tecnologia, mas também de diferenças em custos como poder de computação e eletricidade.

Por exemplo, na China: através de optimização de engenharia, implementação em escala e custos de eletricidade mais baixos, é possível reduzir significativamente os custos de inferência. Isto permite que modelos com capacidades equivalentes forneçam serviços de Token ao exterior a preços mais baixos.

Neste momento, parte da expansão internacional de empresas chinesas de modelos tem, na essência, a ver com o negócio de “spread de Token”.

É claro que a fonte do crescimento da receita vem de uma procura explosiva e da estrutura de mercado oligopolista; no entanto, não se deve ser demasiado otimista, afinal, devido às diferenças no ambiente de concorrência, China e EUA ainda têm muitas diferenças ao vender APIs:

Por exemplo, no ecossistema de grandes modelos dos EUA, a procura da cauda longa dos programadores depende mais; clientes empresariais e programadores tendem a estar mais dispostos a pagar pela capacidade, e o desempenho do modelo pode converter-se mais facilmente em prémio.

Já na China, as chamadas estão mais concentradas nos clientes de topo, incluindo plataformas de internet e clientes de governo e empresas. Além disso, devido à concorrência na oferta, o prémio de Token provavelmente não existirá de forma duradoura.

De certa forma, nos EUA, os grandes modelos base assemelham-se mais a uma combinação de software e plataforma; na China, é mais como uma parte de infraestruturas.

Deste ponto de vista, até onde é que o modelo de negócio das empresas chinesas de grandes modelos consegue operar, talvez seja necessário continuar a observar.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar