Tokens são a “nova moeda” na era da IA. Em 2024, a guerra de preços da IA começou, e os Tokens são cotados em “厘”; em 2026, a demanda por poder de cálculo explode, e fabricantes de modelos e provedores de nuvem aumentam coletivamente os preços dos Tokens.

Nos últimos dois anos, a indústria de grandes modelos passou de uma guerra de preços para uma guerra de valor, e o valor do Token está sendo reavaliado. Além de salários, bônus e ações, os Tokens tornaram-se até uma nova moeda de negociação salarial para engenheiros do Vale do Silício. A disputa por ecossistemas e recursos em torno dos Tokens já começou.

Da onda de redução de preços para a onda de aumento

Em 2026, fabricantes de modelos e provedores de nuvem aumentam coletivamente os preços dos Tokens. Este ano, a Zhituo já anunciou duas vezes aumentos de preços. Em 16 de março, a Zhituo lançou o modelo base GLM-5-Turbo, otimizado para o cenário OpenClaw, com aumento de 20% no preço da API. No pacote “Lobster” para usuários individuais e empresariais, a assinatura mensal custa 39 yuans, incluindo 35 milhões de Tokens, enquanto a assinatura avançada custa 99 yuans por mês, incluindo 100 milhões de Tokens. Em fevereiro, a Zhituo anunciou uma mudança na política de preços do Coding Plan, “devido ao crescimento contínuo da demanda de mercado por GLM Coding Plan, ao rápido aumento na escala de usuários e chamadas”, decidindo cancelar o desconto de primeira compra, mantendo descontos por assinatura trimestral ou anual, com aumento geral de preços a partir de 30%.

Além dos fabricantes de modelos, os provedores de nuvem também estão aumentando preços coletivamente. Devido ao sucesso da assinatura Coding Plan, a API de modelos da Alibaba Cloud teve um aumento explosivo de chamadas, e em 4 de março anunciou uma ajustagem temporária do desconto de primeira compra, com fornecimento limitado por tempo e quantidade diária, enquanto durarem os estoques. Em 18 de março, a Alibaba Cloud afirmou que, devido à explosão da demanda global por IA e ao aumento nos custos da cadeia de suprimentos, os custos de aquisição de hardware central do setor aumentaram significativamente, e a partir de 18 de abril ajustará os preços de serviços de poder de cálculo de IA, CPFS (versão inteligente de computação), entre outros. Serviços relacionados a cartões de poder de cálculo como Pingtouge Zhenwu 810E aumentaram de 5% a 34%, e o CPFS (versão inteligente de computação) subiu 30%.

A Baidu Cloud Inteligente também anunciou que, a partir de 18 de abril, os produtos e serviços relacionados ao poder de cálculo de IA terão um aumento de aproximadamente 5% a 30%, e armazenamento de arquivos paralelos aumentará cerca de 30%. A Tencent Cloud anunciou que, a partir de 13 de março, os modelos GLM 5, MiniMax 2.5, Kimi 2.5 encerraram a fase de testes públicos e passaram a ser serviços comerciais oficiais, cobrando por uso de acordo com chamadas de modelos. Os preços dos modelos da série Hun Yuan também foram ajustados: o preço de entrada do modelo Tencent HY2.0 Instruct passou de 0,0008 yuan por mil tokens para 0,004505 yuan, e o preço de saída de 0,002 yuan por mil tokens para 0,01113 yuan por mil tokens.

No entanto, há apenas dois anos, a “onda de redução de preços” de Tokens ainda está viva na memória.

Na “Batalha dos Cem Modelos” de 2024, a indústria de grandes modelos ainda vivia uma intensa guerra de preços, com provedores de nuvem e fabricantes de modelos competindo para reduzir preços e distribuir Tokens.

Em maio daquele ano, a ByteDance iniciou uma guerra de preços com um Token a 0,0008 yuan por mil tokens, seguida pela Alibaba Cloud, que anunciou uma redução de até 97% no preço do Tongyi Qianwen, seu principal modelo GPT-4 de nível. Na época, o modelo principal do Tongyi Qianwen, Qwen-Long, tinha um preço de entrada de 0,02 yuan por mil tokens, que caiu para 0,0005 yuan por mil tokens. Ao mesmo tempo, o limite de tokens grátis para novos usuários da Zhituo foi aumentado de 5 milhões para 25 milhões de Tokens.

A DeepSeek, que treinou modelos de alto desempenho a custos mais baixos, revelou em março do ano passado informações-chave por trás de seu sistema de inferência V3/R1. Com otimizações de throughput e latência, se todos os Tokens fossem precificados de acordo com o DeepSeek-R1, a margem de custo e lucro poderia chegar a 545%.

A tecnologia é a base para a redução de preços dos modelos. Tan Dai, presidente da plataforma de serviços em nuvem Volcano Engine, uma subsidiária da ByteDance, afirmou em 2024, durante a onda de redução de preços de IA, que a lógica básica da redução é a confiança em usar meios tecnológicos para reduzir custos, e o mercado também precisa de modelos maiores e mais baratos.

“Nos últimos dois anos, a demanda por poder de cálculo era maior para empresas, agora ela é ‘faminta’ por poder de cálculo individual, impulsionando modelos de negócios de startups de IA e grandes empresas a se voltarem ao consumo de Tokens”, afirmou Tian Feng, diretor do Instituto de Pesquisa de Indústria de IA da Quicksand.

Nos últimos dois anos, a rápida evolução dos modelos e o crescimento expressivo de aplicações de agentes inteligentes impulsionaram a demanda por poder de cálculo, que continua a subir. A capacidade de GPUs de inferência de alto custo e alta relação custo-benefício é limitada, e os custos de hardware central, como memória, aumentaram significativamente. Bernard Golden, CEO da Navica, uma empresa de análise, consultoria e investimentos em tecnologia do Vale do Silício, afirmou que toda a indústria está buscando freneticamente mais poder de cálculo.

Com o desequilíbrio entre oferta e demanda, o aumento de preços é inevitável.

“Um modelo mais inteligente realiza tarefas mais complexas e consome recursos enormes”, afirmou Zhang Peng, CEO da Zhituo, ao comentar a estratégia de aumento de preços. Ele explicou que a execução de tarefas por agentes inteligentes envolve cadeias de raciocínio mais longas, além de interagir com infraestrutura de baixo nível por meio de codificação, ajustando e corrigindo erros continuamente. Para responder a uma questão simples, o Token necessário pode ser de dez a cem vezes maior. A essência do ajuste de preços é a mudança de custos: “Modelos maiores, mais capazes, implicam custos de serviço mais altos, por isso queremos trazê-los de volta a uma faixa de valor comercial normal. A dependência de preços baixos a longo prazo não é benéfica para o setor.”

Crescimento de chamadas de Tokens em mil vezes em dois anos

Nos últimos dois anos, fornecedores de software integraram capacidades de geração de texto, imagem e voz em plataformas de atendimento ao cliente, geração de materiais de marketing, robôs de serviço, entre outros, por meio de APIs padronizadas. Usuários empresariais acessam grandes modelos por chamadas ou assinaturas, reduzindo barreiras de uso e investimentos iniciais. Afinal, o custo de uma GPU H100 é cerca de 25.000 dólares, e usar várias GPUs em um sistema é ainda mais caro.

Esse modelo de serviço permite que grandes modelos atinjam rapidamente uma vasta base de usuários, levando a um aumento explosivo no uso de Tokens. O diretor da Agência de Dados Nacional, Liu Liehong, revelou recentemente que, até o final de 2025, mais de 100 mil conjuntos de dados de alta qualidade foram construídos na China. Em março deste ano, a China registrou uma média diária de mais de 140 trilhões de chamadas de Tokens, um aumento de mais de 1.000 vezes em relação ao início de 2024, e um crescimento de mais de 40% em apenas três meses em relação ao final de 2025.

Tian Feng afirmou ao Pengpai Tech que, em 2024, a demanda por poder de cálculo para treinamento ultrapassou 50%, e em 2025, a situação se inverterá completamente. Se há dois anos era uma “batalha de cem modelos”, agora é uma “batalha de cem camarões”.

A explosão na demanda por inferência, a ligação profunda entre serviços de inferência e consumo de Tokens, é o cenário de maior escala e crescimento mais rápido de poder de cálculo atualmente. O desempenho contínuo dos modelos impulsiona a explosão no consumo de Tokens, e aplicações de agentes inteligentes como “OpenClaw” e “Lobster” estão se infiltrando amplamente, causando uma explosão na demanda por Tokens. O OpenClaw é apelidado de “buraco negro de Tokens”. Para empresas e indivíduos que usam Lobster, Tokens representam a maior barreira de custo.

Tian Feng afirmou que o consumo de Tokens ao executar tarefas por agentes inteligentes é de 4 a 15 vezes maior do que em perguntas tradicionais. O empreendedor de IA Luo Xuan usa o OpenClaw para realizar tarefas complexas de pesquisa, consumindo milhões ou até mais Tokens. Para encontrar Tokens mais baratos, sua estratégia é registrar-se como novo usuário de provedores de nuvem ou modelos, obtendo Tokens gratuitos, mas ainda assim reclama que “Tokens são muito caros”.

Programação, chat, trabalho de escritório e outros consumos de poder de cálculo são medidos em Tokens. Em uma visão mais ampla, geração de imagens por quantidade de imagens, e vídeos por duração e resolução também consomem muita capacidade de cálculo. O encerramento do aplicativo Sora pela OpenAI é um exemplo. Executar serviços de geração de vídeo exige enorme poder de cálculo e energia elétrica, representando um custo elevado para qualquer empresa, e o fechamento do Sora libera muitos recursos de poder de cálculo.

A demanda por poder de cálculo não impulsiona apenas o crescimento de GPUs, mas também de todos os componentes relacionados, que se tornam fatores de restrição.

“Incluindo refrigeração, iluminação, energia para servidores, o custo de energia dos data centers representa cerca de 60%. Com o aumento dos preços de petróleo, gás natural e outras fontes de energia, além de ciclos de alta de cinco anos para a memória”, afirmou Tian Feng, os custos de energia e hardware impulsionam a alta dos preços de poder de cálculo.

Huang Zhiming, vice-presidente global da Cisco e CEO da Grande China, disse ao Pengpai Tech que, no curto prazo, investir em hardware e construir fábricas não é algo que se possa fazer em um ou dois meses, e a oferta e demanda continuarão a oscilar por algum tempo. Hou Shengli, vice-presidente sênior e CTO da Cisco na Grande China, acrescentou que levará cerca de dois anos para a capacidade de produção acompanhar a demanda, “a adaptação das fábricas de memória leva pelo menos dois anos, e não haverá melhora antes do final de 2027. Reconstruir fábricas e expandir linhas de produção não é algo rápido”. No entanto, Huang acredita que, com a ampliação do uso e a popularização das aplicações, os custos se tornarão mais acessíveis e baratos.

Yao Xin, fundador da Piao Cloud, provedora de serviços de nuvem de IA em Xangai, afirmou ao Pengpai Tech que, atualmente, o gargalo que limita a IA e o poder de cálculo não são os chips de ponta, mas os componentes de TI tradicionais e tecnologias convencionais. Nos últimos dez anos, a cadeia de infraestrutura de TI tradicional — memória, discos rígidos, switches — cresceu de forma estável, acompanhando o crescimento do PIB global, com uma demanda previsível e moderada. Mas o crescimento explosivo da IA quebrou esse equilíbrio. Aumento maciço de entregas de GPUs e componentes periféricos, impulsionado por essa demanda “ponto de inflexão”, deixou a capacidade de fornecimento atrás. “Os chips de ponta aumentaram de capacidade, mas os demais componentes não acompanharam. E todos foram bastante afetados por essa onda, levando a uma expansão de produção de memória, discos rígidos e outros componentes tradicionais.”

Alternância de oferta e demanda, e eventual estabilização

“Hoje, Tokens custam mais que estagiários; em três a cinco anos, certamente ficarão mais baratos.” Tian Feng também acredita que, no futuro, os preços dos Tokens certamente diminuirão.

Ele afirma que, a curto prazo, a alta de preços dos poder de cálculo decorre de uma desconexão entre oferta e demanda. Mas, do ponto de vista do ciclo de semicondutores, a indústria de manufatura tem ciclos de capacidade, e após expansão, a nova capacidade é liberada em massa, causando impacto na oferta e demanda, levando a uma redução de preços ou até excesso de capacidade. Em relação à energia, a China está promovendo uma transição para fontes renováveis, o que deve reduzir ainda mais os custos energéticos. A médio prazo, o preço dependerá da evolução da capacidade dos modelos principais — versões novas a cada três meses tendem a resolver necessidades não atendidas anteriormente, gerando novas demandas e elevando os preços de poder de cálculo; a longo prazo, a evolução da capacidade de raciocínio determinará a redução contínua dos custos de poder de cálculo.

Nos últimos dois anos, a oferta e a demanda alternaram seu crescimento. Tian Feng afirmou que a DeepSeek representa um pico de redução de custos na inovação, enquanto a explosão de produtividade com “Lobster” criou um pico na demanda. “Mas isso não significa que, quando a demanda explode, o custo de inferência não diminua; apenas que a velocidade de explosão da demanda é maior que a de redução de custos de inferência. Em 3 a 5 anos, os custos totais de poder de cálculo e Tokens irão cair drasticamente.”

Yao Xin afirmou que a IA entrou no “ponto de singularidade”, e que nos próximos um ou dois anos, haverá um crescimento exponencial de dezenas ou centenas de vezes. “Setores que não estiverem preparados para esse crescimento enfrentarão escassez a curto prazo. Mas, como ondas de água, essa expansão se dispersará lentamente e, eventualmente, se estabilizará.”

Por trás do aumento de preços dos Tokens, a lógica comercial também está mudando. Jensen Huang, CEO da Nvidia, falou várias vezes sobre a estrutura de “cinco camadas” da IA, que vai de energia, chips, infraestrutura, modelos e aplicações, sendo que a camada superior de aplicações proporcionará os maiores lucros econômicos.

“A IA atual é como a internet em 2000, quando ninguém tinha certeza do que ela poderia fazer, mas muitas pessoas investiram na construção de sites de várias formas.” Huang Shili afirmou que, com a aplicação e inovação contínuas, em 2005 e 2006 surgiram cada vez mais cenários de ‘Internet+’, com serviços se fundindo. O desenvolvimento da IA também promete, e 2026 é amplamente previsto como o ano de nascimento dos agentes inteligentes, com aplicações surgindo continuamente.

Esses agentes inteligentes estão se integrando a smartphones, computadores e até linhas de produção industrial. “A demanda de cada pessoa por IA para aumentar a produtividade é quase ilimitada, a única limitação é o preço. Quando os preços sobem, a demanda diminui; quando caem, a demanda aumenta.” Tian Feng afirmou que, mesmo agora, as grandes empresas não tratam todos igualmente ao aumentar preços. “De um lado, as grandes empresas elevam os preços de nuvem para clientes corporativos, e, por outro, oferecem testes gratuitos ou limites de Tokens para conquistar o mercado de consumidores finais.” Tian Feng admitiu que a situação atual é como na internet primitiva: as grandes empresas querem conquistar usuários, mas o mais importante é disputar os desenvolvedores.

No passado, os desenvolvedores eram programadores de todo o mundo; hoje, muitos não técnicos possuem habilidades de Vibe Coding (programação de atmosfera). Eles são consumidores e criadores de código. Quando as grandes empresas “seguram” esses desenvolvedores, podem fazer com que suas criações fiquem na nuvem própria.

Gigantes da internet oferecem Tokens aos funcionários para incentivar o uso de IA. Segundo a Interface News, a Alibaba está promovendo um programa interno que fornece Tokens aos funcionários, incentivando o uso de modelos e ferramentas avançadas de IA no trabalho. Os funcionários podem usar gratuitamente ferramentas de IA pagas como Wukong, plataformas de agentes inteligentes Qoder, entre outras, para pesquisa técnica e tarefas administrativas, com a empresa fornecendo Tokens. Funcionários podem solicitar reembolso ao adquirir assinaturas do Coding Plan ou ferramentas externas de IA.

Os cenários de aumento de produtividade com IA não se limitam à programação, mas também abrangem criação de conteúdo e trabalho profissional, que também geram demanda por Tokens. A MiniMax até atualizou seu antigo Coding Plan para um Token Plan que suporta modelos multimodais MiniMax, aproveitando a oportunidade de Tokens.

“Honestamente, não há muitas necessidades urgentes de mercado para modelos, por isso a cobrança mensal é comum. Tokens ganham atenção porque o crescimento de usuários mensais e o consumo médio de Tokens representam diretamente a receita.” Tian Feng afirmou que isso cria uma forte fidelidade do usuário: se o produto for bom, mesmo com preço um pouco mais alto, os usuários pagarão por uma melhor experiência. Além disso, com 5 milhões de Tokens, é possível vender por 22 yuans ou por 400 yuans, com o valor agregado ligado às capacidades do modelo base e do agente inteligente. Tian Feng conclui que, na essência, os Tokens representam uma mina de ouro ainda não totalmente explorada.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
Gate13thAnniversaryLive
1.26M Popularidade
#
WCTCTradingChallengeShare8MUSDT
827.63K Popularidade
#
BitcoinBouncesBack
234.73K Popularidade
#
IsraelStrikesIranBTCPlunges
30.77K Popularidade
#
EthereumMemeSeasonReturns
2.01M Popularidade

Fixar

De redução de preços coletiva para aumento coletivo de preços, por que a "Economia de Tokens" mudou de direção em dois anos

Tópicos em destaque

Gate13thAnniversaryLive

WCTCTradingChallengeShare8MUSDT

BitcoinBouncesBack

IsraelStrikesIranBTCPlunges

EthereumMemeSeasonReturns

Fixar