Futuros
Acesse centenas de contratos perpétuos
CFD
Ouro
Plataforma única para ativos tradicionais globais
Opções
Hot
Negocie opções vanilla no estilo europeu
Conta unificada
Maximize sua eficiência de capital
Negociação demo
Introdução à negociação de futuros
Prepare-se para sua negociação de futuros
Eventos de futuros
Participe de eventos e ganhe recompensas
Negociação demo
Use fundos virtuais para experimentar negociações sem riscos
CFD
Derivativos de CFD de ações dos EUA
Ações dos EUA
Acesse ações e ETFs reais dos EUA
Ações de Hong Kong
Negocie ações de qualidade listadas em Hong Kong
Ações da Coreia
SK Hynix
Negocie ações da Coreia reais e invista em ativos populares
Futuros de ações
Alta alavancagem, negociação 24/7
Ações tokenizadas
Respaldado por ativos de ações reais
IPO Access
Desbloqueie o acesso completo a IPO de ações globais
GUSD
Cunhe GUSD para rendimentos de RWA do Tesouro
Atividades de ações
Negocie ações populares e desbloqueie airdrops generosos
Lançamento
CandyDrop
Colete candies para ganhar airdrops
Launchpool
Staking rápido, ganhe novos tokens em potencial
HODLer Airdrop
Possua GT em hold e ganhe airdrops massivos de graça
IPO Access
Desbloqueie o acesso completo a IPO de ações globais
Pontos Alpha
Negocie on-chain e receba airdrops
Pontos de futuros
Ganhe pontos de futuros e colete recompensas em airdrop
Investimento
Simple Earn
Ganhe juros com tokens ociosos
Autoinvestimento
Invista automaticamente regularmente
Investimento duplo
Lucre com a volatilidade do mercado
Soft Staking
Ganhe recompensas com stakings flexíveis
Empréstimo de criptomoedas
0 Fees
Penhore uma criptomoeda para pegar outra emprestado
Centro de empréstimos
Centro de empréstimos integrado
Centro de riqueza VIP
Planos premium de crescimento de patrimônio
Gate Wealth
Assuma o controle do seu futuro financeiro
Fundo Quantitativo
Estratégias quant de alto nível
Apostar
Faça staking de criptomoedas para ganhar em produtos PoS
Alavancagem Inteligente
Alavancagem sem liquidação
USD1 9% a.a.
Stake em 1 clique, ganhos diários
Promoções
Centro de atividade
Participe de atividades e ganhe recompensas
Indicação
20 USDT
Convide amigos para recompensas de ind.
Programa de afiliados
Ganhe recomp. de comissão exclusivas
Gate Booster
Aumente a influência e ganhe airdrops
Anúncio
Atualizações na plataforma em tempo real
Blog da Gate
Artigos do setor de criptomoedas
Serviços VIP
Grandes Descontos nas Taxas
Gerenciamento de ativos
Solução completa de gerenciamento de ativos
Institucional
Soluções de ativos digitais para empresas
Desenvolvedores (API)
Conecta-se ao ecossistema de aplicativos da Gate
Transferência Bancária OTC
Deposite e retire moedas fiat
Programa de corretoras
Mecanismos de grandes descontos via API
AI
Gate AI
Seu parceiro de IA conversacional para todas as horas
Gate AI Bot
Use o Gate AI diretamente no seu aplicativo social
GateClaw
Gate Blue Lobster, pronto para usar
Gate for AI Agent
Infraestrutura de IA, Gate MCP, Skills e CLI
Gate Skills Hub
10K+ habilidades
Do escritório à negociação: um hub completo de habilidades para turbinar o uso da IA
Os 80% dos prompts do Claude Code são deletados à vontade, a Anthropic deu um exemplo com o Fable 5: a "redução de custos" na indústria de IA está apenas começando.
Esta é a realidade que está acontecendo. De acordo com os dados mais recentes, os gastos da própria Anthropic em poder computacional já chegaram a 2,3 vezes suas despesas com salários. Considerando o custo total de um engenheiro sênior de US$ 224.000, o gasto anual em poder computacional por engenheiro da Anthropic é de aproximadamente US$ 515.000. Ou seja: as pessoas não são mais caras que os modelos.
Diante dessas contas, até o próprio Claude começou a economizar tokens.
Claude Code: A ilusão de que queimar tokens equivale a "ser muito produtivo"
Recentemente, surgiu um novo termo no setor: Token Apocalypse (Apocalipse dos Tokens).
Do "token maxing" ao "token apocalypse", isso indica que uma grande mudança de paradigma realmente ocorreu na indústria de IA. Em março e abril deste ano, as pessoas ainda se gabavam de quantos tokens usavam, até mesmo transformando isso em uma espécie de ranking. Mas usar IA não significa automaticamente economizar dinheiro, então começaram a enfatizar mais o custo por token.
Mais sutilmente, os grandes modelos também estão expandindo muitos trabalhos que originalmente não precisavam de IA. Agora não queremos mais ler PDFs ou textos longos nós mesmos; queremos que a IA resuma tudo. Ou transformamos essas coisas em slides com IA e os jogamos para outra pessoa, que pode usar IA para ler esses slides... A IA parece estar injetando uma camada extra de valor em trabalhos que já eram muito superficiais, enquanto discretamente aumenta a conta.
Hoje, a perda de controle de custos se tornou a norma. Empresas como Amazon, Adobe, Atlassian e Citigroup começaram a impor controles rígidos sobre o uso de IA:
Limitação de níveis de modelo: alguns funcionários estão proibidos de usar modelos de ponta como Claude Opus, sendo forçados a downgrade para versões mais baratas;
Definição de limites pessoais: a Uber estabeleceu um limite mensal de US$ 1.500 em tokens por engenheiro;
Revogação total de permissões: instituições como o Citigroup já restringiram completamente o acesso a ferramentas avançadas de IA, e funcionários que não atingem as metas de uso podem até ter suas contas corporativas canceladas. Antes disso, o CTO da Uber admitiu que a empresa usou todo o orçamento anual de IA em poucos meses. O Walmart também interrompeu recentemente o uso de algumas ferramentas.
As grandes empresas ou estão procurando maneiras de economizar dinheiro em todos os lugares, ou pisando no freio imediatamente no desperdício de tokens. Portanto, os funcionários recebem uma mensagem extremamente contraditória: de um lado, "a IA pode aumentar sua eficiência em 100 vezes, você precisa usá-la"; do outro, "não leve a empresa à falência".
Este também é o problema mais típico na primeira rodada de popularização das ferramentas de IA: quando as ferramentas são lançadas, não há barreiras suficientes para impedir que as empresas gastem milhões de dólares em grandes modelos de linguagem, nem mecanismos para lembrar as equipes de que os tokens estão sendo queimados rapidamente. Seja chatbots ou ferramentas de codificação, muitos produtos colocam "fazer funcionar" em primeiro lugar, deixando a governança de custos, cotas de uso, classificação de modelos e gerenciamento de contexto para depois.
Mas o Claude Code não é essencialmente uma ferramenta de eficiência, e sim uma ferramenta de marketing.
Seu objetivo de design é claro: fazer você se sentir produtivo. Boris, o gerente de projeto do Claude Code, pensou inicialmente ao criar o produto: "Se o modelo se tornar inteligente o suficiente, como será o código? Como eu quero usar essas coisas?" — O ponto de partida não é "como ajudar os desenvolvedores a economizar tokens", mas "como mostrar a inteligência do modelo".
A Anthropic está disposta a queimar muitos tokens por essa "sensação" — seja o seu dinheiro ou o deles. Gastar US$ 200 em cinco minutos não é um acidente para o Claude Code, é um design. Sua lógica subjacente é: problemas que podem ser resolvidos queimando mais tokens nunca devem ser resolvidos com economia de tokens. Todos os sub-agentes, todas as animações extravagantes de UI, todos os reasoning traces prolixos não são para eficiência, mas para fazer você, ao olhar para a tela, pensar: "Este modelo é muito inteligente, muito capaz."
Por trás disso, há um ciclo de marketing cuidadosamente projetado: você queima muitos tokens, ganha a sensação de "alta produtividade", acha o Claude bom e continua usando-o. A Anthropic está até disposta a arcar com grandes quantidades de custos de token para ganhar esse reconhecimento emocional. É também por isso que seus aplicativos de desktop são claramente subinvestidos — o objetivo do Claude Code nunca foi ser uma boa ferramenta, mas sim se tornar a "melhor vitrine" das capacidades dos modelos da Anthropic.
E é exatamente essa filosofia de design de "queimar tokens por experiência" que faz com que o Claude fique para trás do OpenAI em eficiência de tokens.
O OpenAI sempre se esforçou para comprimir tokens. Desde a compressão dos reasoning traces até a otimização da eficiência dos próprios modelos, sua filosofia é: usar menos tokens para fazer o mesmo trabalho. O Codex 5.5 é o melhor exemplo.
Embora modelos como o Fable 5 sejam muito inteligentes, eles não são tão eficientes em comparação com outros. Este gráfico do Deep SWE ilustra bem o problema. Se compararmos os mesmos grupos de modelos lado a lado, fica ainda mais evidente: o GPT-5.5 medium usou apenas 20 mil tokens e obteve uma pontuação impressionante; enquanto o Opus 4.8 usou 50 mil tokens e obteve uma pontuação mais baixa.
Esta é a descrição mais direta das duas abordagens: o setor está em pânico, o Claude está queimando, o OpenAI está economizando. E a próxima pergunta é: já que é preciso reduzir custos, qual é a primeira coisa a cortar? A resposta: os prompts que foram acumulados por muito tempo.
A dívida de prompt do Claude Code: quanto mais você acumula, mais deve
Em uma apresentação recente, a Anthropic afirmou que já removeu 80% dos system prompts do Claude Code.
O membro da equipe técnica da Anthropic, Tariq Shihipar, explicou que isso reflete uma mudança fundamental na forma como os modelos de IA são guiados. Antigamente, acreditava-se que quanto mais instruções e exemplos, melhor o desempenho do modelo. Mas agora, essa lógica não se sustenta mais. O novo modelo Fable 5 é mais imaginativo do que os exemplos fornecidos por eles próprios; os exemplos se tornaram uma limitação.
Claro que isso tem um componente de marketing — ele exaltou a capacidade do Fable: "Os exemplos tendem a limitar o modelo porque ele é, na verdade, mais imaginativo do que os exemplos que damos." Mas um fato é inegável: até a própria Anthropic começou a reduzir os system prompts.
Então, por que tantos prompts eram necessários antes?
Nos últimos um ou dois anos, formou-se um pensamento inercial no círculo de coding de IA: quanto maior o contexto, melhor; quanto mais instruções de ferramentas, melhor; quanto mais completo o system prompt, melhor. O modelo não sabe como o projeto está organizado? Escreva Agents.md. O modelo não sabe como usar as ferramentas? Escreva tool descriptions. O modelo não é proativo o suficiente? Escreva orientações comportamentais. O modelo não é estável o suficiente? Continue adicionando restrições ao system prompt.
Não se pode negar que os system prompts já foram o núcleo competitivo das ferramentas de coding de IA. Pequenos ajustes nos prompts de LLMs podem trazer melhorias significativas de desempenho. Se o mesmo modelo parece diferente no Codex, Cursor, OpenCode e Copilot, é quase certo que se deve a diferenças sutis nos prompts.
É por isso que o Cursor gastou muito tempo testando system prompts, fazendo testes A/B e ajustando a forma de prompt para diferentes modelos. Comparado ao uso do Opus no Claude Code, o harness do Cursor pode melhorar significativamente o desempenho do modelo, com alguns benchmarks registrando ganhos de até 10% a 30%. A diferença central geralmente está nos poucos trechos de prompt.
Mas o problema é que, enquanto os prompts forem úteis, as equipes continuarão adicionando coisas. Um modelo gosta de usar ferramentas de forma inadequada? Adicione uma regra. Um modelo não é proativo o suficiente? Adicione um incentivo. Um modelo pesquisa demais? Adicione uma restrição. Um modelo não entende o contexto do projeto? Adicione mais um arquivo markdown. Cada adição tem sua razão, mas com o tempo, o system prompt se transforma em um enorme fardo de contexto permanente.
O problema é: system prompts não são gratuitos. Eles são lidos, cobrados e ocupam contexto a cada chamada.
Depois que o Claude Code incorporou todas as ferramentas e funcionalidades, o system prompt chegou a inflar para 65.000 tokens; mesmo com a maioria das funcionalidades desativadas, ainda tinha 12.000 tokens. Em outras palavras, antes mesmo de começar a escrever uma linha de código, o modelo já carrega um manual de instruções. Em comparação, o contexto inicial do Pi tem menos de mil tokens.
Mais problemático ainda, a dívida de prompt é mais insidiosa do que a dívida de código.
Código antigo geralmente se revela ao modificar funcionalidades, executar testes ou lidar com bugs. Prompt antigo, no entanto, pode apenas fazer o modelo piorar silenciosamente. O usuário vê "o Claude Code parece não estar tão inteligente ultimamente" ou "o novo modelo não é tão bom quanto anunciado", mas a verdadeira razão pode ser que os system prompts antigos não acompanharam o novo modelo.
Quando os prompts passam de vantagem competitiva a fardo, a Anthropic opta por remover 80%, o que também pode melhorar ainda mais a eficiência dos tokens.
O "imposto da fala" do Claude: cada palavra a mais custa mais caro
O Claude Code tem muito blá-blá-blá.
Este ano, um plugin chamado Caveman rapidamente se tornou popular, justamente para resolver esse problema. Seu nome significa "homem das cavernas" — falar como um homem primitivo: sem educação, sem gramática extra, sem palavras de preenchimento, apenas o núcleo do significado.
À primeira vista, parece uma piada. Mas quando você entende, percebe que ele resolve um problema muito real dos LLMs: muitas palavras, muitos tokens e custos desnecessariamente altos.
E sua origem é justamente o Claude Code.
"Eu criei o Caveman no início de abril porque estava usando muito o Claude Code na época e percebi que muitos dos meus gastos com tokens estavam sendo desperdiçados em palavras desnecessárias: cumprimentos, expressões vagas, transições e aquelas expressões coloquiais que não são realmente importantes no loop de agente", disse Julius Brussee, criador do Caveman.
Os benchmarks de Brussee mostram que o Caveman pode reduzir de 65% a 75% dos tokens de saída em comparação com a saída padrão, com resultados ainda melhores do que o comando normal "seja conciso". Ele comprime principalmente a linguagem ao redor, sem afetar código, comandos, caminhos, URLs, nomes de funções — itens que precisam de precisão.
De acordo com relatos, Shayne Sweeney, diretor de engenharia da OpenAI, também contribuiu com código para o projeto, para suportar o Codex.
Mais interessante ainda, a OpenAI já aplicou esse padrão de linguagem ao processo de raciocínio.
Alguns reasoning traces vazados (não os reasoning summaries exibidos externamente) revelaram indícios. O conteúdo não se parece com inglês comum, mas sim com anotações de engenharia comprimidas:
Essas frases parecem engraçadas e até confusas, mas o foco não está na legibilidade, e sim na eficiência dos tokens. Quando o modelo raciocina internamente, não precisa manter educação, completude e fluência como quando fala com o usuário. Ele só precisa reter ações, objetos, julgamentos e próximos passos. Em outras palavras, desde que a resposta final esteja normal, o modelo pode usar internamente uma linguagem mais curta, mais grosseira e mais econômica em tokens para pensar, buscando freneticamente eficiência.
Isso é ainda mais útil do que na etapa de escrever prompts. Comprimir reasoning tokens traz mais benefícios, porque os agentes executam várias etapas, e o raciocínio de uma etapa se torna a entrada da próxima. Cada vez que o modelo "pensa" menos, não economiza apenas os tokens atuais, mas também os custos repetidos em toda a cadeia de execução subsequente.
Esta é uma diferença clara entre as abordagens da OpenAI e do Claude.
O Claude sempre foi melhor para conversar e parece mais um assistente que pensa e se expressa em linguagem completa. Basta ver que seus reasoning traces são muito mais longos para adivinhar que ele provavelmente usa inglês comum. Suas saídas e raciocínios costumam ser mais longos, portanto, dependem mais de janelas de contexto grandes para acomodar esse conteúdo.
É também por isso que o Claude usa por padrão uma janela de contexto de 1 milhão de tokens. Muitos pensam que é para caber uma base de código maior, mas a razão é mais simples: as coisas que o Claude gera são tão longas que, sem uma janela grande, não cabem. Eles são até ruins em compactação; quando você restaura uma thread antiga, o Claude sugere não manter o contexto completo, mas tentar compactá-lo. Porque eles não retêm os reasoning traces — na verdade, eles os limpam após 10 a 20 minutos, porque os reasoning tokens são tão ineficientes que não vale a pena mantê-los; caso contrário, o custo se tornaria absurdo e inaceitável.
Já os modelos da OpenAI têm janelas de contexto de token de cerca de 200 mil ou menos, mas conseguem compressão desde o início por meio dessa linguagem concisa.
Um detalhe que vale a pena considerar: se a Anthropic corrigisse o problema de "muitas palavras", sua receita cairia significativamente. Se os desenvolvedores podem fazer o mesmo trabalho com menos tokens gerados, é dinheiro que eles deixariam de ganhar.
Fonte: InfoQ
Aviso de risco e termos de isenção de responsabilidade