Em maio de 2026, uma reportagem gerou ampla atenção no setor: uma empresa de tecnologia, por não estabelecer limites na licença de uso do Claude pelos funcionários, teve um consumo de tokens equivalente a aproximadamente 500 milhões de dólares em um único mês. Este caso extremo merece análise não pelo seu tamanho, mas pela lógica de medição que revela: a empresa equiparou o consumo de tokens à intensidade de uso de IA pelos funcionários, sem estabelecer mecanismos de controle vinculados à produção de negócios.

Se essa “explosão na conta” for apenas uma falha administrativa, então as práticas internas de empresas de ponta do Vale do Silício como Meta e Amazon revelam problemas mais profundos. Meta lançou uma classificação chamada “Claudeonomics”, monitorando o consumo de tokens de mais de 85 mil funcionários, com títulos como “Lenda do Token” e “Apreciador de Modelos” para incentivar rankings. Dados mostram que, em 30 dias, o consumo total foi de cerca de 60 trilhões de tokens, estimando-se uma conta de aproximadamente 9 bilhões de dólares com base nos preços públicos da Anthropic; o funcionário com maior consumo atingiu cerca de 2,81 bilhões de tokens em um mês, equivalente a mais de 140 mil dólares. Na Amazon, a lista “Kirorank” inicialmente visava promover a aplicação de IA em cenários de negócios, mas acabou incentivando funcionários a executar operações sem sentido apenas para “subir de ranking”, sendo criticados por um vice-presidente sênior: “não use IA só por usar”. Após a internalização do consumo de tokens como métrica de gestão, há uma distorção na motivação em larga escala.

A questão central que surge é: o consumo de tokens pode servir como critério para avaliar agentes de IA, empresas ou desempenho de funcionários? Se a resposta for não, então quais indicadores realmente têm valor de avaliação?

Acreditamos que usar o consumo de tokens como métrica é perigoso, pois confunde “custo” com “valor” e “processo” com “resultado”. No momento em que agentes estão se tornando o principal foco de aplicações de IA, o verdadeiro ativo não é o token, mas o próprio agente inteligente.

II. Como surgiu a tokenização como ativo?

2.1 Maturidade da comercialização baseada na precificação de tokens

Tokens, como a menor unidade de processamento de texto em grandes modelos, já se estabeleceram como a base de precificação na indústria de IA. Em março de 2026, o Comitê Nacional de Terminologia Científica e Tecnológica oficializou o nome “词元” (unitário de palavras) para “token”, disponibilizando uma versão de teste para toda a sociedade. A Agência Nacional de Dados também definiu como “unidade de liquidação” na era inteligente. Segundo a agência, na primeira trimestre de 2026, a média diária de chamadas de tokens na China ultrapassou 140 trilhões, mais de mil vezes o valor de início de 2024. Essa padronização reflete a formação de um consenso industrial sobre o sistema de precificação por tokens.

No cenário de preços, o mercado de tokens apresenta forte polarização. Modelos internacionais principais, como GPT-4, cobram US$ 2,50 por milhão de tokens na entrada e US$ 10 na saída; Claude Sonnet 4.6 cobra US$ 3 na entrada e US$ 15 na saída. Em abril de 2026, a OpenAI lançou oficialmente as séries GPT-5.5 e GPT-5.5 Pro, com preços de API de US$ 30 na entrada e US$ 180 na saída por milhão de tokens. No Brasil, modelos domésticos competem com preços agressivos: em 27 de maio de 2026, a Xiaomi anunciou uma redução de até 99% no preço de API da série MiMo-V2.5, chegando a uma taxa de 0,025 yuan por milhão de tokens na cache; a DeepSeek lançou a série V4, com o modelo V4-Pro tendo preço de cache na entrada também a 0,025 yuan durante promoções. Não há um “valor justo” unificado para o preço do token — diferentes modelos e cenários podem ter variações de preço de até centenas ou milhares de vezes pelo mesmo consumo.

2.2 O surgimento e os problemas do Tokenmaxxing

A racionalidade técnica do uso de tokens como unidade de precificação, aliada ao respaldo regulatório, contrasta com a prática empresarial de transformá-lo em métrica de gestão, criando uma ruptura perigosa. “Tokenmaxxing” começou a se popularizar internamente por volta de 2025, com a lógica de gestão: já que a empresa adquiriu ferramentas de IA, os funcionários devem maximizar seu uso para obter retorno do investimento.

Porém, dados revelam fragilidades dessa lógica. Pesquisas estimam que, para cada dólar gasto na compra de tokens de IA, há uma perda implícita de cerca de US$ 0,50 a US$ 0,80, incluindo correções de erro, reescrita de código e atrasos na revisão. Análises indicam que os 10% de usuários mais intensivos de Claude Code consomem tokens cerca de dez vezes mais que desenvolvedores comuns, mas produzem apenas o dobro de resultados. Amazon e Meta já encerraram suas próprias listas internas de ranking de consumo de tokens, enquanto a Uber gastou seu orçamento anual de tokens em apenas quatro meses. O setor está mudando de uma narrativa de “usar IA para ser mais eficiente” para uma mais cautelosa: “vale a pena gastar dinheiro nisso?”

2.3 A emergência da economia de agentes inteligentes

Por outro lado, a discussão centrada no consumo de tokens negligencia uma mudança estrutural: agentes inteligentes estão evoluindo de capacidades adicionais de grandes modelos para entidades tecnológicas e econômicas independentes. Em maio de 2026, o Ministério da Ciência e Tecnologia, a Comissão Nacional de Desenvolvimento e Reforma e o Ministério da Indústria e Tecnologia da Informação emitiram conjuntamente a “Opinião sobre Normas, Aplicações e Inovação de Agentes Inteligentes”, afirmando que agentes são uma forma importante de produtos e serviços de IA. Na conferência de desenvolvedores da Anthropic em maio, a empresa promoveu o Claude Code de “assistente de programação no terminal” para “infraestrutura de automação assíncrona para equipes de engenharia”, adotando uma estratégia de precificação híbrida de “taxa básica + pagamento pelo consumo de capacidade”. Sua estratégia de “Agentes Gerenciados” representa uma mudança mais profunda: fabricantes de modelos começam a vender infraestrutura de execução de agentes, mudando o modelo de negócios de vender tokens para vender a capacidade de execução de agentes.

Nesse contexto, as limitações da métrica de consumo de tokens tornam-se mais evidentes, acelerando a busca por sistemas de avaliação alternativos.

III. É realmente adequado usar tokens como métrica?

3.1 Quatro falhas estruturais na métrica de tokens

Primeiro, o token confunde custo com valor. Em sua fala na conferência Create2026, Baidu, Robin Li afirmou: “Tokens representam apenas custo, não lucro; eles medem o investimento, não o resultado”. O professor Ma Shaoping, da Tsinghua, explica que “tokens não carregam inteligência; são apenas portadores de informação; a inteligência do agente está na relação entre as sequências de tokens”. Usar consumo de tokens como métrica de desempenho equivale a uma fábrica usar o consumo de energia como padrão de produção — quanto mais energia gasta, nem sempre maior a produção, podendo indicar baixa eficiência ou gestão descontrolada.

Segundo, falta uma base de comparação entre modelos e tarefas. Diferentes grandes modelos calculam tokens de formas distintas, e ajustes nos tokenizadores podem alterar significativamente o consumo de tokens para o mesmo texto. Além disso, tarefas diferentes requerem quantidades variadas de tokens para atingir objetivos similares. Ainda mais, quando o preço do token já apresenta diferenças de mais de cem vezes entre fornecedores e cenários, usar essa métrica como referência de desempenho é logicamente inconsistente.

Terceiro, a avaliação por tokens gera distorções de incentivo. Quando o consumo de tokens entra na avaliação de desempenho, os funcionários não são mais avaliados por evitar desperdício, mas por maximizar o consumo, mesmo que isso seja uma meta falsa. Engenheiros deixam de buscar a solução ótima com menos tokens e, em vez disso, aumentam a complexidade da cadeia de tarefas ou adicionam passos redundantes para inflar o consumo — uma distorção econômica evidente, já observada na Meta e na Amazon.

Quarto, o consumo de tokens não captura a qualidade do resultado. Um agente que resolve problemas complexos de forma eficiente pode consumir poucos tokens, enquanto outro que tenta várias abordagens, muitas vezes de forma ineficiente, consome muito mais. Quanto maior o consumo, geralmente, menor a eficiência — contradizendo o objetivo de avaliação.

3.2 Redefinindo o ativo central: o agente inteligente

A análise acima aponta uma conclusão fundamental: tokens são recursos consumidos, enquanto o agente inteligente é o verdadeiro criador de valor. A relação é semelhante à de consumo de energia e o motor que a impulsiona — é possível medir o total de energia consumida, mas o que importa é quanto trabalho o motor realiza e que produto produz.

A estratégia da Anthropic confirma isso. Em maio de 2026, a nova versão do Claude focou em “codificação orientada por agentes, uso de computadores, trabalho de conhecimento e análise financeira” — ou seja, agentes que participam de tarefas reais. Além disso, a empresa está mudando sua estratégia de vender apenas o acesso ao modelo, para oferecer infraestrutura de execução de agentes, transferindo o valor do consumo de capacidade computacional para a capacidade de operação do agente.

Segundo o responsável pelo Claude Code, o produto não é lucrativo sob o modelo de assinatura atual. Isso mostra que a precificação por tokens não cobre os custos reais de agentes inteligentes, cujo valor está na realização de tarefas, automação e fluxo de trabalho, aspectos que não podem ser capturados apenas pelo consumo de tokens.

3.3 Emergência de novos critérios de avaliação

Quando o uso de tokens se mostra insuficiente, o setor busca alternativas. Como padrão de avaliação de agentes de código, o SWE-bench Verified tornou-se uma referência rigorosa, exigindo que o modelo localize e corrija bugs em repositórios reais do GitHub. Dados públicos mostram que o Claude Sonnet 4 pontuou cerca de 80,20% nesse benchmark, enquanto o Claude Opus 4.6 atingiu entre 78% e 80%. O ponto central é que esses critérios não avaliam o consumo de tokens, mas a quantidade de “tarefas” que o agente consegue realizar.

Na avaliação de valor de negócio, a Baidu propôs o DAA (Número de Agentes Ativos Diários), definido como “quantos agentes estão realmente trabalhando e entregando resultados todos os dias”. O foco mudou de “quantidade de uso de IA” para “quantidade de tarefas concluídas”.

A Amazon também explora indicadores de “implantação normalizada”, que avaliam se engenheiros conseguem gerar código útil continuamente com IA. Segundo o relatório da FinOps Foundation de 2026, 98% das empresas já gerenciam custos de IA, contra 31% há dois anos, indicando uma maior atenção à relação entre gastos e resultados. Essa tendência reforça a ideia de que a avaliação deve se basear na qualidade e quantidade de tarefas realizadas por agentes, e não no consumo de recursos.

Essas iniciativas compartilham a lógica de: medir a qualidade e quantidade de tarefas concluídas por agentes, e não o consumo de recursos. Isso reforça a proposição de que “o verdadeiro ativo não é o token, mas o agente inteligente”.

IV. Comparação entre a métrica de tokens e a guerra de preços

4.1 Corrida de preços de tokens vs avaliação por agentes

A posição dos defensores do uso de tokens remonta à fala de Jensen Huang na GTC de março de 2026: “Se um engenheiro com salário de 500 mil dólares gastar menos de 250 mil dólares em tokens por ano, ficarei preocupado”, defendendo que o orçamento de tokens seja uma métrica de produtividade. Essa narrativa assume que maior consumo de tokens equivale a maior valor criado.

Porém, esse pressuposto enfrenta múltiplos desafios. O COO da Uber, Andrew Macdonald, afirmou: “É difícil relacionar a produtividade individual dos funcionários ao impacto geral no negócio”. Na prática, funcionários usam IA para tarefas que preferem ou que não trazem valor direto à empresa. Pesquisas indicam que apenas 14% dos CFOs veem retorno claro do investimento em IA. Após o esgotamento do orçamento anual de tokens, a Uber não apresentou crescimento proporcional de desempenho. Assim, há uma evidência clara: não há relação causal verificável entre o orçamento de tokens e o crescimento do negócio, e a métrica de tokens não deve ser usada como avaliação.

4.2 A guerra de preços de tokens como efeito colateral

A competição acirrada por preços de tokens acrescenta uma nova dimensão ao debate. Em abril de 2026, a OpenAI aumentou o preço do GPT-5.5 Pro API para US$ 30 na entrada e US$ 180 na saída por milhão de tokens, várias vezes acima do GPT-5.4 Pro. A DeepSeek reduziu o preço do V4-Pro para 0,025 yuan por milhão de tokens, e a Xiaomi também baixou o preço de cache para 0,025 yuan. A diferenciação de preços entre fornecedores ultrapassa qualquer padrão de mercado tradicional: o custo de uma chamada de 1 milhão de tokens pode variar de menos de 0,03 yuan a cerca de 210 yuan (US$ 30).

Essa dinâmica ameaça a credibilidade do token como métrica: se o custo de um token varia centenas ou milhares de vezes entre fornecedores, como usar o consumo de tokens para comparar o desempenho de empresas? Para investidores e analistas, avaliações baseadas em consumo de tokens também se tornam cada vez mais imprecisas. A métrica de tokens está passando por uma rápida fragmentação, e o “investimento” medido por consumo de tokens perde seu referencial.

V. Fatos valem mais que argumentos

Cenário 1: o fracasso do “Claudeonomics” do Meta

Em abril de 2026, um funcionário do Meta criou um painel interno chamado “Claudeonomics”, que monitorava o consumo de tokens de mais de 85 mil funcionários. Os dados mostraram que, em 30 dias, o consumo total foi de cerca de 60 trilhões de tokens, estimando-se uma conta de aproximadamente US$ 9 bilhões com base nos preços públicos da Anthropic. O funcionário com maior consumo atingiu cerca de 2,81 bilhões de tokens, equivalente a mais de US$ 140 mil.

Esse caso revela as três fases da métrica de tokens: primeiro, usar o consumo para incentivar o uso de IA; segundo, funcionários buscarem ou criarem tarefas para inflar o consumo; terceiro, recursos de computação sendo desperdiçados e a qualidade do resultado caindo abaixo do esperado. Eventualmente, o Meta desativou esse ranking.

Cenário 2: gargalo de capacidade da Anthropic e expansão

Outro lado da métrica de tokens é o impacto nos custos e na capacidade de modelos. Em maio de 2026, a Anthropic anunciou que assumiria toda a capacidade do data center Colossus 1, da SpaceX, com mais de 300 MW de potência e mais de 220 mil GPUs Nvidia, para aliviar limites de uso do Claude. Essa expansão mostra a dependência do sistema de precificação por tokens na oferta de capacidade computacional, além de indicar que a estabilidade de longo prazo dessa métrica ainda é incerta.

Cenário 3: pressão sobre contas de tokens de empresas

Relatos indicam que a Microsoft limitou o uso do Claude Code por funcionários, enquanto a Uber gastou seu orçamento anual de tokens em quatro meses. Empresas como Shopify, Spotify, ServiceNow e Roku mencionaram em seus relatórios que IA se tornou uma das principais despesas operacionais. Quando o aumento rápido das contas de tokens começa a afetar os resultados trimestrais, as empresas passam a avaliar sistematicamente a relação entre consumo e produção.

Cenário 4: agentes como ativos positivos

Enquanto o uso de tokens enfrenta críticas, empresas que focam na avaliação de agentes inteligentes apresentam caminhos diferentes. A estratégia da Anthropic, voltada ao mercado empresarial, mostra resultados: embora seus usuários finais sejam menos de 2% dos do ChatGPT, sua receita anual atingiu cerca de US$ 9 bilhões em 2025, ultrapassando os US$ 30 bilhões em março de 2026, superando o valor de US$ 25 bilhões da OpenAI no mesmo período. Uma das razões é que seus agentes realizam tarefas reais, como contratos, análise de dados e logística, gerando valor constante, mesmo que os usuários não percebam.

Segundo a mídia, a receita anual do Claude Code cresceu rapidamente entre 2025 e 2026, pois as empresas pagam pelo resultado, não pelo consumo de capacidade. Isso reforça a ideia de que “o ativo verdadeiro é o agente inteligente”.

VI. De uma avaliação centrada em tokens para uma avaliação centrada em agentes

Em resumo, as tendências já se mostram claras:

Primeiro, a métrica de consumo de tokens tem falhas estruturais. Ela mistura investimento e resultado, não fornece comparação entre modelos ou cenários, e incentiva distorções de comportamento. As experiências do Meta e da Amazon confirmam isso.

Segundo, agentes inteligentes estão se tornando o ativo mais relevante na economia de IA. Sua definição é baseada na capacidade de “realizar tarefas”, não no consumo de recursos. Um agente eficiente pode fazer muito com poucos tokens; um ineficiente pode gastar muito sem produzir valor real. Assim, o consumo de tokens não reflete a capacidade do agente nem o retorno do investimento.

Terceiro, o setor está mudando de uma avaliação centrada em tokens para uma centrada em agentes. Padrões de avaliação de tarefas, como o SWE-bench, oferecem uma base para comparar agentes; métricas de valor de negócio, como DAA, avaliam a quantidade de trabalho entregue; e empresas buscam indicadores de desempenho baseados na qualidade do resultado.

Em suma, o verdadeiro ativo não é o token, mas o agente inteligente. Tokens são o combustível para a operação, mas a competitividade empresarial depende da eficiência do motor, não do tanque de combustível. A mudança do paradigma de avaliação de tokens para agentes será uma das principais linhas de reconstrução do sistema de avaliação da indústria de IA nos próximos três a cinco anos.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

Recompensa
curtir
Comentário
Repostar
Compartilhar

Comentário

Adicionar um comentário

Sem comentários

Tendências
Ver projetos
#
ShareYourUSStocksWinNvidia
23.93M Popularidade
#
WinGoldBarsWithGrowthPoints
1.28M Popularidade
#
IsraelStrikesIranBTCPlunges
52.1K Popularidade
#
NvidiaSurges6PercentToRecordHigh
2.87M Popularidade
#
AnthropicFilesConfidentialIPO
481.29K Popularidade

Fixado

sitemap

Token não é um ativo real, o agente inteligente é que é.

I. O consumo massivo de tokens por funcionários de empresas de tecnologia