“Fable 5 este preço está muito acima do salário diário de um programador chinês. Escrever código queimando centenas de milhares de tokens por dia já é bem econômico, e então você vê a conta: milhares de RMB.”

Esta é a realidade que está acontecendo. De acordo com os dados mais recentes, os gastos da própria Anthropic em poder computacional já chegaram a 2,3 vezes suas despesas com salários. Considerando o custo total de um engenheiro sênior de US$ 224.000, o gasto anual em poder computacional por engenheiro da Anthropic é de aproximadamente US$ 515.000. Ou seja: as pessoas não são mais caras que os modelos.

Diante dessas contas, até o próprio Claude começou a economizar tokens.

Claude Code: A ilusão de que queimar tokens equivale a "ser muito produtivo"

Recentemente, surgiu um novo termo no setor: Token Apocalypse (Apocalipse dos Tokens).

Do "token maxing" ao "token apocalypse", isso indica que uma grande mudança de paradigma realmente ocorreu na indústria de IA. Em março e abril deste ano, as pessoas ainda se gabavam de quantos tokens usavam, até mesmo transformando isso em uma espécie de ranking. Mas usar IA não significa automaticamente economizar dinheiro, então começaram a enfatizar mais o custo por token.

Mais sutilmente, os grandes modelos também estão expandindo muitos trabalhos que originalmente não precisavam de IA. Agora não queremos mais ler PDFs ou textos longos nós mesmos; queremos que a IA resuma tudo. Ou transformamos essas coisas em slides com IA e os jogamos para outra pessoa, que pode usar IA para ler esses slides... A IA parece estar injetando uma camada extra de valor em trabalhos que já eram muito superficiais, enquanto discretamente aumenta a conta.

Hoje, a perda de controle de custos se tornou a norma. Empresas como Amazon, Adobe, Atlassian e Citigroup começaram a impor controles rígidos sobre o uso de IA:

Limitação de níveis de modelo: alguns funcionários estão proibidos de usar modelos de ponta como Claude Opus, sendo forçados a downgrade para versões mais baratas;
Definição de limites pessoais: a Uber estabeleceu um limite mensal de US$ 1.500 em tokens por engenheiro;
Revogação total de permissões: instituições como o Citigroup já restringiram completamente o acesso a ferramentas avançadas de IA, e funcionários que não atingem as metas de uso podem até ter suas contas corporativas canceladas. Antes disso, o CTO da Uber admitiu que a empresa usou todo o orçamento anual de IA em poucos meses. O Walmart também interrompeu recentemente o uso de algumas ferramentas.

As grandes empresas ou estão procurando maneiras de economizar dinheiro em todos os lugares, ou pisando no freio imediatamente no desperdício de tokens. Portanto, os funcionários recebem uma mensagem extremamente contraditória: de um lado, "a IA pode aumentar sua eficiência em 100 vezes, você precisa usá-la"; do outro, "não leve a empresa à falência".

Este também é o problema mais típico na primeira rodada de popularização das ferramentas de IA: quando as ferramentas são lançadas, não há barreiras suficientes para impedir que as empresas gastem milhões de dólares em grandes modelos de linguagem, nem mecanismos para lembrar as equipes de que os tokens estão sendo queimados rapidamente. Seja chatbots ou ferramentas de codificação, muitos produtos colocam "fazer funcionar" em primeiro lugar, deixando a governança de custos, cotas de uso, classificação de modelos e gerenciamento de contexto para depois.

Mas o Claude Code não é essencialmente uma ferramenta de eficiência, e sim uma ferramenta de marketing.

Seu objetivo de design é claro: fazer você se sentir produtivo. Boris, o gerente de projeto do Claude Code, pensou inicialmente ao criar o produto: "Se o modelo se tornar inteligente o suficiente, como será o código? Como eu quero usar essas coisas?" — O ponto de partida não é "como ajudar os desenvolvedores a economizar tokens", mas "como mostrar a inteligência do modelo".

A Anthropic está disposta a queimar muitos tokens por essa "sensação" — seja o seu dinheiro ou o deles. Gastar US$ 200 em cinco minutos não é um acidente para o Claude Code, é um design. Sua lógica subjacente é: problemas que podem ser resolvidos queimando mais tokens nunca devem ser resolvidos com economia de tokens. Todos os sub-agentes, todas as animações extravagantes de UI, todos os reasoning traces prolixos não são para eficiência, mas para fazer você, ao olhar para a tela, pensar: "Este modelo é muito inteligente, muito capaz."

Por trás disso, há um ciclo de marketing cuidadosamente projetado: você queima muitos tokens, ganha a sensação de "alta produtividade", acha o Claude bom e continua usando-o. A Anthropic está até disposta a arcar com grandes quantidades de custos de token para ganhar esse reconhecimento emocional. É também por isso que seus aplicativos de desktop são claramente subinvestidos — o objetivo do Claude Code nunca foi ser uma boa ferramenta, mas sim se tornar a "melhor vitrine" das capacidades dos modelos da Anthropic.

E é exatamente essa filosofia de design de "queimar tokens por experiência" que faz com que o Claude fique para trás do OpenAI em eficiência de tokens.

O OpenAI sempre se esforçou para comprimir tokens. Desde a compressão dos reasoning traces até a otimização da eficiência dos próprios modelos, sua filosofia é: usar menos tokens para fazer o mesmo trabalho. O Codex 5.5 é o melhor exemplo.

Embora modelos como o Fable 5 sejam muito inteligentes, eles não são tão eficientes em comparação com outros. Este gráfico do Deep SWE ilustra bem o problema. Se compararmos os mesmos grupos de modelos lado a lado, fica ainda mais evidente: o GPT-5.5 medium usou apenas 20 mil tokens e obteve uma pontuação impressionante; enquanto o Opus 4.8 usou 50 mil tokens e obteve uma pontuação mais baixa.

Esta é a descrição mais direta das duas abordagens: o setor está em pânico, o Claude está queimando, o OpenAI está economizando. E a próxima pergunta é: já que é preciso reduzir custos, qual é a primeira coisa a cortar? A resposta: os prompts que foram acumulados por muito tempo.

A dívida de prompt do Claude Code: quanto mais você acumula, mais deve

Em uma apresentação recente, a Anthropic afirmou que já removeu 80% dos system prompts do Claude Code.

O membro da equipe técnica da Anthropic, Tariq Shihipar, explicou que isso reflete uma mudança fundamental na forma como os modelos de IA são guiados. Antigamente, acreditava-se que quanto mais instruções e exemplos, melhor o desempenho do modelo. Mas agora, essa lógica não se sustenta mais. O novo modelo Fable 5 é mais imaginativo do que os exemplos fornecidos por eles próprios; os exemplos se tornaram uma limitação.

Claro que isso tem um componente de marketing — ele exaltou a capacidade do Fable: "Os exemplos tendem a limitar o modelo porque ele é, na verdade, mais imaginativo do que os exemplos que damos." Mas um fato é inegável: até a própria Anthropic começou a reduzir os system prompts.

Então, por que tantos prompts eram necessários antes?

Nos últimos um ou dois anos, formou-se um pensamento inercial no círculo de coding de IA: quanto maior o contexto, melhor; quanto mais instruções de ferramentas, melhor; quanto mais completo o system prompt, melhor. O modelo não sabe como o projeto está organizado? Escreva Agents.md. O modelo não sabe como usar as ferramentas? Escreva tool descriptions. O modelo não é proativo o suficiente? Escreva orientações comportamentais. O modelo não é estável o suficiente? Continue adicionando restrições ao system prompt.

Não se pode negar que os system prompts já foram o núcleo competitivo das ferramentas de coding de IA. Pequenos ajustes nos prompts de LLMs podem trazer melhorias significativas de desempenho. Se o mesmo modelo parece diferente no Codex, Cursor, OpenCode e Copilot, é quase certo que se deve a diferenças sutis nos prompts.

É por isso que o Cursor gastou muito tempo testando system prompts, fazendo testes A/B e ajustando a forma de prompt para diferentes modelos. Comparado ao uso do Opus no Claude Code, o harness do Cursor pode melhorar significativamente o desempenho do modelo, com alguns benchmarks registrando ganhos de até 10% a 30%. A diferença central geralmente está nos poucos trechos de prompt.

Mas o problema é que, enquanto os prompts forem úteis, as equipes continuarão adicionando coisas. Um modelo gosta de usar ferramentas de forma inadequada? Adicione uma regra. Um modelo não é proativo o suficiente? Adicione um incentivo. Um modelo pesquisa demais? Adicione uma restrição. Um modelo não entende o contexto do projeto? Adicione mais um arquivo markdown. Cada adição tem sua razão, mas com o tempo, o system prompt se transforma em um enorme fardo de contexto permanente.

O problema é: system prompts não são gratuitos. Eles são lidos, cobrados e ocupam contexto a cada chamada.

Depois que o Claude Code incorporou todas as ferramentas e funcionalidades, o system prompt chegou a inflar para 65.000 tokens; mesmo com a maioria das funcionalidades desativadas, ainda tinha 12.000 tokens. Em outras palavras, antes mesmo de começar a escrever uma linha de código, o modelo já carrega um manual de instruções. Em comparação, o contexto inicial do Pi tem menos de mil tokens.

Mais problemático ainda, a dívida de prompt é mais insidiosa do que a dívida de código.

Código antigo geralmente se revela ao modificar funcionalidades, executar testes ou lidar com bugs. Prompt antigo, no entanto, pode apenas fazer o modelo piorar silenciosamente. O usuário vê "o Claude Code parece não estar tão inteligente ultimamente" ou "o novo modelo não é tão bom quanto anunciado", mas a verdadeira razão pode ser que os system prompts antigos não acompanharam o novo modelo.

Quando os prompts passam de vantagem competitiva a fardo, a Anthropic opta por remover 80%, o que também pode melhorar ainda mais a eficiência dos tokens.

O "imposto da fala" do Claude: cada palavra a mais custa mais caro

O Claude Code tem muito blá-blá-blá.

Este ano, um plugin chamado Caveman rapidamente se tornou popular, justamente para resolver esse problema. Seu nome significa "homem das cavernas" — falar como um homem primitivo: sem educação, sem gramática extra, sem palavras de preenchimento, apenas o núcleo do significado.

À primeira vista, parece uma piada. Mas quando você entende, percebe que ele resolve um problema muito real dos LLMs: muitas palavras, muitos tokens e custos desnecessariamente altos.

E sua origem é justamente o Claude Code.

"Eu criei o Caveman no início de abril porque estava usando muito o Claude Code na época e percebi que muitos dos meus gastos com tokens estavam sendo desperdiçados em palavras desnecessárias: cumprimentos, expressões vagas, transições e aquelas expressões coloquiais que não são realmente importantes no loop de agente", disse Julius Brussee, criador do Caveman.

Os benchmarks de Brussee mostram que o Caveman pode reduzir de 65% a 75% dos tokens de saída em comparação com a saída padrão, com resultados ainda melhores do que o comando normal "seja conciso". Ele comprime principalmente a linguagem ao redor, sem afetar código, comandos, caminhos, URLs, nomes de funções — itens que precisam de precisão.

De acordo com relatos, Shayne Sweeney, diretor de engenharia da OpenAI, também contribuiu com código para o projeto, para suportar o Codex.

Mais interessante ainda, a OpenAI já aplicou esse padrão de linguagem ao processo de raciocínio.

Alguns reasoning traces vazados (não os reasoning summaries exibidos externamente) revelaram indícios. O conteúdo não se parece com inglês comum, mas sim com anotações de engenharia comprimidas:

"Use core new nodes. Need infer. Need add VAE encode for images. Try. Try period."

Essas frases parecem engraçadas e até confusas, mas o foco não está na legibilidade, e sim na eficiência dos tokens. Quando o modelo raciocina internamente, não precisa manter educação, completude e fluência como quando fala com o usuário. Ele só precisa reter ações, objetos, julgamentos e próximos passos. Em outras palavras, desde que a resposta final esteja normal, o modelo pode usar internamente uma linguagem mais curta, mais grosseira e mais econômica em tokens para pensar, buscando freneticamente eficiência.

Isso é ainda mais útil do que na etapa de escrever prompts. Comprimir reasoning tokens traz mais benefícios, porque os agentes executam várias etapas, e o raciocínio de uma etapa se torna a entrada da próxima. Cada vez que o modelo "pensa" menos, não economiza apenas os tokens atuais, mas também os custos repetidos em toda a cadeia de execução subsequente.

Esta é uma diferença clara entre as abordagens da OpenAI e do Claude.

O Claude sempre foi melhor para conversar e parece mais um assistente que pensa e se expressa em linguagem completa. Basta ver que seus reasoning traces são muito mais longos para adivinhar que ele provavelmente usa inglês comum. Suas saídas e raciocínios costumam ser mais longos, portanto, dependem mais de janelas de contexto grandes para acomodar esse conteúdo.

É também por isso que o Claude usa por padrão uma janela de contexto de 1 milhão de tokens. Muitos pensam que é para caber uma base de código maior, mas a razão é mais simples: as coisas que o Claude gera são tão longas que, sem uma janela grande, não cabem. Eles são até ruins em compactação; quando você restaura uma thread antiga, o Claude sugere não manter o contexto completo, mas tentar compactá-lo. Porque eles não retêm os reasoning traces — na verdade, eles os limpam após 10 a 20 minutos, porque os reasoning tokens são tão ineficientes que não vale a pena mantê-los; caso contrário, o custo se tornaria absurdo e inaceitável.

Já os modelos da OpenAI têm janelas de contexto de token de cerca de 200 mil ou menos, mas conseguem compressão desde o início por meio dessa linguagem concisa.

Um detalhe que vale a pena considerar: se a Anthropic corrigisse o problema de "muitas palavras", sua receita cairia significativamente. Se os desenvolvedores podem fazer o mesmo trabalho com menos tokens gerados, é dinheiro que eles deixariam de ganhar.

Fonte: InfoQ

Aviso de risco e termos de isenção de responsabilidade

        Mercado tem risco, investir requer cautela. Este artigo não constitui aconselhamento de investimento pessoal e não considera as metas de investimento, situação financeira ou necessidades específicas de cada usuário. Os usuários devem considerar se quaisquer opiniões, pontos de vista ou conclusões neste artigo são adequados à sua situação específica. Qualquer investimento baseado neste artigo é de responsabilidade do próprio investidor.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

Recompensa
curtir
Comentário
Repostar
Compartilhar

Comentário

Adicionar um comentário

Sem comentários

Tendências
Ver projetos
#
gStocksTokenizedStocksLive
4,79M Popularidade
#
StrongNonfarmPayrollsRekindleRateHikeFear
1,05M Popularidade
#
IsraelStrikesIranBTCPlunges
68,28K Popularidade
#
PredictWorldCupShare20000U
215,61K Popularidade
#
ETHBreaks1700
152,63M Popularidade

Fixado

sitemap

Os 80% dos prompts do Claude Code são deletados à vontade, a Anthropic deu um exemplo com o Fable 5: a "redução de custos" na indústria de IA está apenas começando.

Claude Code: A ilusão de que queimar tokens equivale a "ser muito produtivo"

A dívida de prompt do Claude Code: quanto mais você acumula, mais deve

O "imposto da fala" do Claude: cada palavra a mais custa mais caro

Tendências

gStocksTokenizedStocksLive

StrongNonfarmPayrollsRekindleRateHikeFear

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

ETHBreaks1700

Fixado