Em maio de 2026, uma reportagem gerou ampla atenção no setor: uma empresa de tecnologia não estabeleceu limites para a licença de uso do Claude pelos funcionários, resultando em um consumo mensal de tokens avaliado em cerca de 5 bilhões de dólares. Este caso extremo merece análise não pelo seu tamanho, mas pela lógica de medição que revela: a empresa equiparou o consumo de tokens à intensidade de uso de IA pelos funcionários, sem estabelecer mecanismos de controle vinculados à produção de negócios.

Se essa “explosão na fatura” é uma falha administrativa, então as práticas internas de empresas de ponta do Vale do Silício como Meta e Amazon revelam problemas mais profundos. A Meta lançou uma classificação chamada “Claudeonomics”, monitorando o consumo de tokens de mais de 85 mil funcionários, com títulos como “Lenda do Token” e “Apreciador de Modelos” para incentivar rankings. Dados mostram que, em 30 dias, o consumo total foi de aproximadamente 60 trilhões de tokens, estimado em cerca de 9 bilhões de dólares com base na precificação pública da Anthropic; o funcionário mais bem colocado consumiu cerca de 2,81 bilhões de tokens em um mês, equivalente a mais de 140 mil dólares. Na Amazon, a lista “Kirorank” inicialmente visava promover o uso de IA em cenários de negócios, mas acabou levando funcionários a executar operações sem sentido para “subir de nível”, sendo finalmente repreendidos por um vice-presidente sênior: “Não use IA só por usar”. Quando o consumo de tokens, uma métrica técnica, é transformado em critério de avaliação gerencial, cria-se uma distorção de incentivos em larga escala.

A questão central que surge é: o consumo de tokens pode servir como base para avaliar agentes de IA, empresas ou funcionários? Se a resposta for não, então quais indicadores realmente têm valor de avaliação?

Acreditamos que usar o consumo de tokens como métrica é perigoso, pois confunde “custo” com “valor” e “processo” com “resultado”. No momento em que agentes estão se tornando o principal uso de IA, o verdadeiro ativo não é o token, mas o próprio agente inteligente.

II. Como surgiu a tokenização como ativo?

2.1 A maturidade do mercado de tokens na comercialização

O token, como a menor unidade de processamento de texto em grandes modelos, foi consolidado como a base de precificação na indústria de IA. Em março de 2026, o Comitê Nacional de Terminologia Científica e Tecnológica oficializou o nome “词元” (unit de palavra) para “token”, lançando uma versão de teste para toda a sociedade. A Agência Nacional de Dados definiu-o como a “unidade de liquidação” na era inteligente. Segundo a agência, na primeira trimestre de 2026, a média diária de chamadas de tokens na China ultrapassou 140 trilhões, mais de mil vezes maior do que no início de 2024. Essa padronização reflete a formação de um consenso industrial sobre o sistema de precificação por tokens.

No cenário de preços, o mercado de tokens apresenta forte fragmentação. Modelos internacionais dominantes, como GPT-4, cobram cerca de 2,5 dólares por milhão de tokens na entrada e 10 dólares na saída; Claude Sonnet 4.6 cobra 3 dólares na entrada e 15 dólares na saída. Em abril de 2026, a OpenAI lançou oficialmente a série GPT-5.5 e a versão avançada GPT-5.5 Pro, com preços de API de 30 dólares na entrada e 180 dólares na saída por milhão de tokens. No Brasil, modelos domésticos entram em forte competição de preços: em 27 de maio de 2026, a Xiaomi anunciou uma redução de até 99% no preço da API da série MiMo-V2.5, chegando a 0,025 yuan por milhão de tokens na cache hit; a DeepSeek lançou a série V4, com o V4-Pro tendo preço de cache hit na entrada de até 0,025 yuan por milhão de tokens durante promoções. Não há um “valor justo” unificado para o precificação por tokens — diferentes modelos e cenários podem ter variações de preço de até centenas ou milhares de vezes pelo mesmo consumo de token.

2.2 A ascensão do tokenmaxxing e seus problemas

A racionalidade técnica do uso de tokens como unidade de precificação, aliada ao respaldo regulatório, contrasta com a prática empresarial de transformá-lo em critério de gestão, criando uma ruptura perigosa. “Tokenmaxxing” começou a se popularizar internamente por volta de 2025, com a lógica de gestão de base: já que a empresa adquiriu ferramentas de IA, os funcionários devem maximizar seu uso para obter retorno sobre o investimento.

Porém, dados revelam a fragilidade dessa lógica. Pesquisas estimam que, para cada dólar gasto na compra de tokens de IA, há uma perda implícita de cerca de 0,5 a 0,8 dólares, incluindo correções de erro, reescrita de código e atrasos na revisão. Análises indicam que os 10% mais intensivos usuários de Claude Code consomem tokens cerca de dez vezes mais que desenvolvedores comuns, mas seus resultados são apenas o dobro. Amazon e Meta já encerraram suas próprias listas internas de classificação de consumo de tokens, enquanto a Uber gastou seu orçamento anual de tokens em apenas quatro meses. O setor está mudando de uma narrativa de “usar IA para ser melhor” para uma mais cautelosa: “vale a pena gastar dinheiro com IA?”

2.3 A emergência da economia de agentes inteligentes

Porém, a discussão centrada no consumo de tokens ignora uma mudança estrutural: agentes inteligentes estão evoluindo de “capacidades adicionais” de grandes modelos para entidades tecnológicas e econômicas independentes. Em maio de 2026, o Ministério da Ciência e Tecnologia, a Comissão Nacional de Desenvolvimento e Reforma e o Ministério da Indústria e Tecnologia da Informação emitiram conjuntamente as “Diretrizes para a Aplicação e Inovação de Agentes Inteligentes”, afirmando que agentes são uma forma importante de produtos e serviços de IA. Na conferência de desenvolvedores de maio de 2026, a Anthropic apresentou o Claude Code como uma infraestrutura de automação assíncrona para equipes de engenharia, mudando de uma “assistente de programação no terminal” para uma “infraestrutura de automação de equipe”, adotando uma precificação híbrida de “taxa básica + pagamento pelo consumo de capacidade”. Sua estratégia de “Agentes Gerenciados” representa uma mudança mais profunda: fabricantes de modelos começam a vender infraestrutura de execução de agentes, mudando o modelo de venda de tokens para a venda de capacidade de agentes.

Nesse contexto, as limitações da métrica de consumo de tokens tornam-se mais evidentes, acelerando a busca por sistemas de avaliação alternativos.

III. A métrica de tokens é realmente adequada?

3.1 Quatro falhas estruturais na métrica de tokens

Primeira, confusão entre custo e valor. Li Yanhong, na conferência Create2026 da Baidu, afirmou: “Tokens representam apenas custo, não lucro; medem o investimento, não o resultado”. O professor Ma Shaoping, da Tsinghua, explicou que “tokens não carregam inteligência; eles apenas transportam informações; a inteligência do agente está na relação entre as sequências de tokens”. Usar consumo de tokens como métrica de desempenho equivale a uma fábrica usar o consumo de energia como padrão de produção — quanto mais energia gasta, nem sempre maior a produção, podendo indicar baixa eficiência ou má gestão.

Segunda, falta de padrão de medição entre modelos e tarefas. Diferentes grandes modelos calculam tokens de formas distintas, e ajustes nos tokenizadores podem alterar significativamente o consumo de tokens para o mesmo texto. Além disso, tarefas diferentes requerem quantidades de tokens de ordens de grandeza distintas para alcançar objetivos similares. Ainda mais, quando o preço do token já varia em mais de cem vezes entre fabricantes, usar essa métrica como referência de desempenho é logicamente insustentável.

Terceira, incentivos distorcidos. Quando o consumo de tokens entra na avaliação de desempenho, os funcionários não querem gastar tokens de forma excessiva por medo de desperdício, mas podem ser levados a aumentar artificialmente o consumo, criando tarefas redundantes ou passos de raciocínio desnecessários. Essa “distorção de indicadores” já foi claramente observada na Meta e na Amazon.

Quarta, dificuldade de avaliar a qualidade do resultado. Um agente inteligente que resolve problemas complexos de forma eficiente pode consumir poucos tokens, enquanto outro que tenta várias abordagens, com múltiplas tentativas e retrocessos, pode consumir muito mais tokens, mesmo sem resolver o problema. Quanto maior o consumo, muitas vezes, menor a eficiência — o que contraria o objetivo de avaliação.

3.2 Redefinindo o ativo de agentes inteligentes

A análise acima aponta uma conclusão fundamental: tokens são recursos consumidos, enquanto agentes inteligentes são entidades que criam valor. A relação é semelhante à de consumo de energia e o motor que a utiliza — é possível medir o total de energia, mas o que importa é quanto trabalho o motor realiza e que produto produz.

A estratégia da Anthropic confirma isso. Em maio de 2026, a nova versão do Claude focou em “codificação orientada por agentes, uso de computadores, trabalho de conhecimento e análise financeira” — ou seja, agentes participando de tarefas reais. Além disso, a Anthropic está mudando sua estratégia de venda de modelos para oferecer infraestrutura de execução de agentes, transferindo o valor do consumo de capacidade para a entrega de serviços de agentes. Essa mudança reflete uma transferência do valor de baixo nível (cálculo) para o nível de aplicação.

Segundo fontes, o produto Claude Code, se precificado apenas por assinatura, não é rentável. Isso mostra que a precificação por tokens não cobre os custos reais de agentes inteligentes, cujo valor está na realização de tarefas, automação e fluxo de trabalho, aspectos que não podem ser capturados apenas pelo consumo de tokens.

3.3 Emergência de novos padrões de avaliação

Quando a métrica de tokens se mostra insuficiente, o setor busca alternativas. Como padrão de avaliação de agentes de código, o SWE-bench Verified tornou-se uma referência rigorosa, exigindo que o modelo localize e corrija bugs em repositórios reais do GitHub. Dados públicos mostram que o Claude Sonnet 4 pontua cerca de 80,2% nesse benchmark, enquanto o Claude Opus 4.6 fica entre 78% e 80%. O ponto central é que esses benchmarks avaliam “quantidade de tarefas concluídas”, não consumo de tokens.

Na avaliação de valor de negócio, a Baidu propôs o DAA (Número de Agentes Ativos Diários), definido como “quantidade de agentes que realmente trabalham e entregam resultados todos os dias”. O foco mudou de “quantidade de uso de IA” para “quantidade de tarefas concluídas”.

A Amazon também explora indicadores de “implantação normalizada” para substituir o rastreamento de tokens, medindo se engenheiros conseguem gerar código útil continuamente com IA. Segundo o relatório da FinOps Foundation de 2026, 98% das empresas já gerenciam custos de IA, contra 31% há dois anos, indicando uma maior atenção à relação entre gastos e resultados. Essa tendência reforça a ideia de que a avaliação deve focar na qualidade e quantidade de tarefas realizadas por agentes, e não apenas no consumo de recursos.

Essas iniciativas compartilham a lógica de: avaliar a qualidade e quantidade de tarefas concluídas por agentes, e não o volume de recursos consumidos — apoiando a proposição de que “o verdadeiro ativo não é o token, mas o próprio agente”.

IV. Comparação entre a guerra de preços de tokens e a avaliação por agentes

4.1 A visão do sistema de tokens versus a visão do agente inteligente

A posição do sistema de tokens remonta à declaração de Huang Renxun na GTC de março de 2026: “Se um engenheiro com salário de 500 mil dólares por ano não gastar 250 mil dólares em tokens, ficarei preocupado”, defendendo que o orçamento de tokens seja um indicador de produtividade. Essa narrativa assume que o consumo de tokens é proporcional ao valor criado.

Porém, esse pressuposto enfrenta múltiplos desafios. Andrew Macdonald, COO da Uber, afirmou: “É difícil relacionar a produtividade individual dos funcionários ao impacto geral nos negócios”. Na prática, funcionários usam IA para tarefas que preferem, não necessariamente para as mais valiosas para a empresa. Pesquisas indicam que apenas 14% dos CFOs veem retorno claro na IA. Após esgotar o orçamento anual de tokens, a Uber não viu aumento de desempenho correspondente. Tudo indica que há uma desconexão entre consumo de tokens e impacto nos negócios, tornando essa métrica inadequada para avaliação.

4.2 A guerra de preços de tokens como efeito colateral

A competição acirrada por preços de tokens, como a recente alta do GPT-5.5 Pro, que aumentou o preço várias vezes, e a redução de preços por fornecedores como DeepSeek e Xiaomi, criou uma fragmentação de preços que ultrapassa qualquer mercado tradicional. Os custos de uso de tokens podem variar de menos de 0,03 yuan a cerca de 210 yuan por milhão, dependendo do fornecedor.

Essa disparidade ameaça a credibilidade do consumo de tokens como métrica comparativa. Se o custo de um token varia centenas ou milhares de vezes, como usar o consumo de tokens para comparar a eficiência de diferentes empresas? Para investidores e analistas, essa volatilidade aumenta o risco de avaliações imprecisas, tornando o consumo de tokens uma métrica cada vez menos confiável.

V. Fatos falam mais alto que palavras

Cenário 1: O fracasso do “Claudeonomics” da Meta

Em abril de 2026, um funcionário da Meta criou um painel interno chamado “Claudeonomics” para monitorar o consumo de tokens de mais de 85 mil funcionários. Os dados mostraram que, em 30 dias, o consumo total foi de aproximadamente 60 trilhões de tokens, estimado em cerca de 9 bilhões de dólares. O funcionário mais ativo consumiu cerca de 2,81 bilhões de tokens, equivalente a mais de 140 mil dólares.

Esse caso ilustra três fases da lógica de incentivo baseada em tokens: primeiro, incentivar o uso de IA por quantidade de tokens; segundo, funcionários buscarem gerar tarefas para subir de ranking; terceiro, recursos de computação sendo desperdiçados e a qualidade do output caindo abaixo do esperado. Eventualmente, a Meta desativou essa lista.

Cenário 2: Limites de capacidade e expansão da Anthropic

Outro lado da métrica de tokens é o custo e a capacidade dos fabricantes de modelos. Em maio de 2026, a Anthropic anunciou que assumiria toda a capacidade do data center Colossus 1, da SpaceX, com mais de 300 MW e mais de 220 mil GPUs Nvidia, para aliviar limites de uso do Claude. Essa expansão revela a dependência do sistema de precificação por tokens na capacidade de computação, além de indicar que a estabilidade de longo prazo dessa métrica ainda é incerta.

Cenário 3: Pressões financeiras sobre contas de tokens empresariais

Relatórios indicam que empresas como Microsoft limitaram o uso de Claude Code, enquanto Uber gastou seu orçamento anual de tokens em quatro meses. Empresas como Shopify, Spotify, ServiceNow e Roku mencionaram que IA se tornou uma das principais despesas operacionais. Quando o aumento de contas de tokens começa a afetar os resultados trimestrais, as empresas passam a avaliar sistematicamente a relação entre consumo de tokens e resultados de negócios.

Cenário 4: Agentes como ativos positivos

Enquanto a narrativa de consumo de tokens enfrenta desafios, empresas que focam na avaliação de agentes inteligentes mostram caminhos diferentes. A Anthropic, por exemplo, tem obtido sucesso na geração de receita: sua receita anual em 2025 foi de cerca de 9 bilhões de dólares, ultrapassando os 30 bilhões em 2026, superando a OpenAI. Uma das razões é que seus agentes realizam tarefas reais, como contratos, análise de dados e logística, gerando valor constante, mesmo que os usuários não percebam sua presença.

Segundo a mídia, a receita anual do Claude Code cresceu rapidamente entre 2025 e 2026, pois as empresas pagam pela qualidade de tarefas concluídas, não apenas pelo consumo de capacidade. Isso reforça a ideia de que “o verdadeiro ativo é o agente, não o token”.

VI. De uma avaliação centrada em tokens para uma avaliação centrada em agentes

Em resumo, as tendências já se tornam evidentes:

Primeiro, o consumo de tokens como métrica de desempenho apresenta falhas estruturais. Confunde investimento com resultado, carece de padrão de comparação entre modelos e cenários, e promove incentivos distorcidos, como demonstrado por Meta e Amazon.

Segundo, agentes inteligentes estão se tornando o ativo mais relevante na economia de IA. Sua definição é baseada na realização de tarefas, não no consumo de capacidade. Um agente eficiente pode fazer muito com poucos tokens; um ineficiente pode gastar muito sem resultados reais. Assim, o consumo de tokens não reflete a capacidade do agente nem o retorno do investimento.

Terceiro, o setor está migrando de uma avaliação centrada em tokens para uma centrada em agentes. Padrões de avaliação de tarefas, como o SWE-bench, e métricas de valor de negócio, como o DAA, estão sendo adotados para medir a efetividade real dos agentes.

Em suma, o verdadeiro ativo não é o token, mas o próprio agente. Tokens são o combustível, mas a força motriz da competitividade empresarial é a eficiência do motor. A mudança do paradigma de avaliação de tokens para agentes será uma das principais linhas de reconstrução do sistema de avaliação da indústria de IA nos próximos três a cinco anos.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
ShareYourUSStocksWinNvidia
23.93M Popularidade
#
WinGoldBarsWithGrowthPoints
1.28M Popularidade
#
IsraelStrikesIranBTCPlunges
52.1K Popularidade
#
NvidiaSurges6PercentToRecordHigh
2.87M Popularidade
#
AnthropicFilesConfidentialIPO
481.77K Popularidade

Fixado

Tokens não são ativos reais, apenas os agentes inteligentes o são

I. O consumo massivo de tokens pelos funcionários de empresas de tecnologia