Modelo de IA "Imposto Chinês": Por que o chinês consome mais tokens do que o inglês?

Question

Autor: Tang Yitao, Fonte: Geek ParkNos dias em que o Opus 4.7 foi lançado, as reclamações na X eram constantes. Alguns disseram que uma única conversa esgotou o limite de sessão dela, outros que o custo de rodar o mesmo trecho de código mais do que dobrou em relação à semana anterior; ainda houve quem compartilhasse uma captura de tela mostrando que, com uma assinatura Max de 200 dólares, atingiu o limite em menos de duas horas.O desenvolvedor independente BridgeMind reconhece que Claude é o melhor modelo do mundo, mas também o mais caro. Sua assinatura Max foi atingida em menos de duas horas, mas felizmente — ele comprou duas.｜Fonte da imagem: X@bridgemindaiO preço oficial da Anthropic não mudou, ainda é 5 dólares por milhão de tokens de entrada e 25 dólares por tokens de saída. Mas esta versão introduziu um novo tokenizer, e o Claude Code elevou o esforço padrão de high para xhigh. Com essas duas mudanças, o consumo de tokens para o mesmo trabalho aumentou de 2 a 2,7 vezes.Nestes debates, vi duas afirmações relacionadas ao chinês. Uma é: sob o novo tokenizer, o chinês quase não aumentou de preço, os usuários chineses escaparam do aumento. Outra, mais interessante: **o clássico consome menos tokens que o chinês moderno, conversar com IA em 文言文 (literário clássico) pode economizar custos**.A primeira afirmação sugere que Claude fez alguma otimização para o chinês, mas nos documentos de lançamento da Anthropic, não há menção a ajustes específicos para o idioma chinês.A segunda afirmação é mais difícil de explicar. O 文言文 é claramente mais difícil de entender para humanos do que o chinês moderno; um texto mais complexo para humanos, será mais fácil para IA?Por isso, fiz um teste usando 22 trechos paralelos (incluindo notícias comerciais, documentos técnicos, textos clássicos, diálogos cotidianos, etc.), enviando-os simultaneamente a 5 tokenizers (Claude 4.6 e 4.7, GPT-4o, Qwen 3.6, DeepSeek-V3), e medindo o número de tokens de cada trecho em cada modelo, fazendo uma comparação horizontal.**Textos do teste:**1. Diálogos cotidianos em chinês e inglês (viagens, fóruns, pedidos de escrita)2. Documentos técnicos em chinês e inglês (documentação Python, documentos da Anthropic)3. Notícias em chinês e inglês (notícias políticas do NYT, notícias comerciais do NYT, declarações oficiais da Apple)4. Trechos literários em chinês clássico e moderno (《出师表》, 《道德经》)Após os testes, ambas as afirmações foram parcialmente confirmadas, mas a realidade é mais complexa do que os rumores sugerem.**1. O "imposto" ao chinês**Vamos às conclusões:1. **No Claude e GPT, o chinês sempre foi mais caro que o inglês**2. **No Qwen e DeepSeek, o chinês é na verdade mais barato que o inglês**3. **A atualização do tokenizer no Opus 4.7, que causou impacto, quase só gerou inflação no inglês, o chinês permaneceu praticamente inalterado**Observando os números específicos: antes do Opus 4.7, toda a série de modelos Claude (incluindo Opus 4.6, Sonnet, Haiku) usava o mesmo tokenizer. Nesse tokenizer, o consumo de tokens em chinês era sempre maior que o equivalente em inglês, com uma relação CN/EN entre 1,11× e 1,64×.O cenário mais extremo aparece em notícias comerciais ao estilo NYT: para o mesmo trecho, o chinês consome até 64% mais tokens, ou seja, paga 64% a mais.**Claude Opus 4.6 e modelos anteriores**: o consumo de tokens em chinês era significativamente maior (marcado na caixa vermelha).**No cenário mais extremo (notícias NYT)**: o chinês consome 64% mais tokens (caixa verde).O tokenizer o200k do GPT-4o é um pouco melhor, com a relação CN/EN na maioria dos casos entre 1,0 e 1,35×, e em alguns até abaixo de 1. O chinês ainda é, no geral, mais caro, mas a diferença é muito menor do que em Claude.Os modelos nacionais Qwen 3.6 e DeepSeek-V3 mostram o cenário inverso. Seus CN/EN estão amplamente abaixo de 1, indicando que, para o mesmo conteúdo, o chinês consome menos tokens que o inglês. **DeepSeek chegou a 0,65×, ou seja, o trecho em chinês é um terço mais barato que em inglês**.A inflação do novo tokenizer do Opus 4.7 quase só afetou o inglês. O número de tokens em inglês aumentou de 1,24× a 1,63×, enquanto o chinês manteve-se em torno de 1,000×, praticamente sem mudança. Assim, a conta dos desenvolvedores de inglês balançou, mas os usuários chineses não sentiram a diferença. Provavelmente porque, na versão antiga, o chinês já tinha sido segmentado em caracteres individuais, com espaço de divisão muito pequeno.********Comparando Opus 4.7 com 4.6, o consumo de tokens em inglês aumentou, enquanto o chinês permaneceu praticamente igual.Durante o teste, notei também uma coisa: a diferença no consumo de tokens não é só uma questão de custo, ela afeta diretamente o espaço de trabalho. Com uma janela de contexto de cerca de 200k, usando o tokenizer antigo, o volume de material que cabe em chinês é de 40% a 70% menor que em inglês.Para tarefas similares — como análise de um documento longo ou resumo de uma reunião —, os usuários chineses podem fornecer menos material ao modelo, que terá um contexto menor para trabalhar. Resultado: pagam mais, mas obtêm uma janela de trabalho menor.Ao juntar esses quatro conjuntos de dados, uma questão surge naturalmente:**Por que a mesma informação, em outro idioma, consome diferente de tokens? Por que o chinês em Claude e GPT é mais caro, enquanto em Qwen e DeepSeek é mais barato?**A resposta está na palavra-chave mencionada várias vezes: o tokenizer (segmentador).**2. Quantas partes pode ter um caractere chinês?**Antes de qualquer coisa, o modelo, ao ler qualquer texto, o divide em tokens via tokenizer. Você pode imaginar o tokenizer como uma "máquina de cortar blocos" para IA. Você insere uma frase, ela a divide em blocos padronizados (tokens). A IA não entende o texto, só reconhece os números desses blocos. Quanto mais blocos, maior o custo.O corte em inglês é mais intuitivo: por exemplo, "intelligence" provavelmente é um token, "information" também, cada palavra uma unidade de cobrança.Porém, no chinês, essa lógica falha. Se enviarmos a mesma frase "人工智能正在重塑全球的信息基础设施" para o GPT-4 com seu tokenizer cl100k e para o Qwen 2.5, os resultados de segmentação são completamente diferentes.GPT-4 basicamente divide cada caractere chinês em um token; Qwen, por outro lado, reconhece palavras inteiras como um token, por exemplo, "人工智能" conta como um token só.**Na mesma frase de 16 caracteres, GPT-4 gera 19 tokens, Qwen apenas 6.**Por quê? A resposta está no algoritmo BPE (Byte Pair Encoding).BPE funciona contando as combinações de caracteres mais frequentes nos dados de treinamento, e mesclando essas combinações em tokens. Assim, combinações frequentes, como "th", "ing", "tion" em inglês, são unidas em um token.Na época do GPT-2, o corpus era quase só inglês, então essas combinações eram comuns e rapidamente se tornavam tokens. Para o chinês, com baixa frequência de combinações, cada caractere era tratado como byte, ocupando 3 bytes, ou seja, 3 tokens.O BPE decide as combinações com base na frequência de caracteres no corpus de treinamento. Como o corpus era majoritariamente inglês, o chinês, em UTF-8, não tinha suas combinações unidas, ficando cada caractere como 3 bytes (tokens).Depois, com o GPT-4 e seu vocabulário expandido (cl100k), alguns caracteres chineses comuns passaram a ser representados por 1 ou 2 tokens, mas ainda assim, a eficiência geral era menor que a do inglês.Com o vocabulário o200k do GPT-4o, a eficiência do chinês melhorou ainda mais. Isso explica por que, na primeira análise, o valor CN/EN do GPT-4o é menor que o do Claude.Modelos nacionais Qwen e DeepSeek, desde o início, incorporaram muitos caracteres comuns e expressões frequentes como tokens inteiros. Um caractere, um token — eficiência dobrada ou mais.**Ilustração da segmentação de uma frase em diferentes tokenizers**Por isso, a relação CN/EN pode ficar abaixo de 1: o próprio conteúdo do chinês, por ser ideogramas, tem maior densidade de informação por caractere. Quando o tokenizer não divide os caracteres, essa vantagem natural se manifesta.A origem da diferença nos dados do teste anterior está, portanto, na quantidade de espaço reservado no vocabulário para o chinês, não na capacidade do modelo.Claude e os primeiros GPTs usaram vocabulários baseados em inglês, o chinês foi "adicionado" posteriormente; Qwen e DeepSeek, desde o projeto, consideram o chinês como idioma padrão. Essa diferença de ponto de partida influencia o número de tokens, custos, tamanho da janela de contexto.**3. O clássico é realmente mais barato?**Voltando à segunda rumorologia: **o chinês clássico consome menos tokens que o chinês moderno**.Os dados confirmam: na análise, o valor CN/EN do clássico é sempre menor que 1, em todos os cinco tokenizers. Para o mesmo trecho, a versão em clássico usa menos tokens que a tradução em moderno.**Em todos os modelos, o chinês clássico consome menos tokens que o chinês moderno, e até menos que o inglês**A razão é simples: o chinês clássico usa caracteres extremamente concisos. "学而不思则罔，思而不学则殆" tem 12 caracteres. Em chinês moderno, essa frase se traduz como "Se você apenas estuda sem pensar, ficará confuso; se apenas pensa sem estudar, estará em perigo", que tem o dobro de caracteres, e, naturalmente, o dobro de tokens.Além disso, caracteres comuns do literatura clássica (之、也、者、而、不) são de alta frequência e estão presentes em qualquer vocabulário de tokenizer, não sendo divididos em bytes. Assim, o chinês clássico é eficiente na codificação.Porém, há uma armadilha.**A economia de tokens no clássico ocorre na codificação, mas a carga de raciocínio do modelo não diminui**. O caractere "罔", por exemplo, precisa ser interpretado pelo modelo no contexto: será "confuso", "enganado" ou "não"? Em chinês moderno, essa nuance pode ser explicada com 26 caracteres; no clássico, a frase toda é comprimida, deixando ao modelo a tarefa de inferir o significado.Por analogia, um arquivo zip comprimido é menor, mas a descompactação exige mais cálculo.**Tokens economizados, o custo de raciocínio aumenta, e a precisão na compreensão pode até diminuir**. Essa conta é difícil de fazer exatamente.O exemplo do chinês clássico mostra que o número de tokens por si só não explica tudo. Mas, ao seguir essa linha, há uma outra variável que não tinha sido considerada antes.Como mencionado, no GPT-2, o caractere "人" era dividido em três bytes UTF-8, enquanto no GPT-4, caracteres comuns passaram a ser um token inteiro, e no Qwen, "人工智能" virou um token só.Intuitivamente, isso parece uma evolução contínua: quanto mais tokens forem mesclados, maior a eficiência, e melhor o entendimento do modelo.Porém, será que é mesmo assim? Vamos refletir sobre como aprendemos a reconhecer os caracteres chineses.Os caracteres são logogramas, na maioria compostos por um radical (que indica o significado) e um componente fonético. Por exemplo, "氵" está relacionado a líquidos, "木" a plantas, "火" a calor. Os radicais são pistas semânticas fundamentais: alguém que não conhece "焱" pode deduzir que é relacionado a fogo, ao ver três "火" juntos.Por isso, os radicais são a base do reconhecimento de significado na leitura. O cérebro humano primeiro infere a categoria semântica pela estrutura, depois ajusta pelo contexto.**"火花"、"火焰"、"光焰"** — palavras que evocam luz e calor, comuns na escrita e nomes próprios.Porém, na tabela de vocabulário do tokenizer, "焱" é apenas um número, digamos, 38721. Ele representa um índice na lista de tokens, e o modelo, ao vê-lo, acessa um vetor numérico que representa esse caractere.O número em si não traz informação sobre a estrutura interna do caractere. A relação entre 38721 e 38722 é igual à entre 1 e 10.000. Assim, a camada de "estrutura" do caractere fica encapsulada nesse número. A ideia de que "três fogo" juntos indicam fogo, por exemplo, não aparece na codificação.O modelo pode aprender indiretamente, por treinamento, que "焱", "炎", "灼" aparecem em contextos semelhantes, mas esse caminho é mais indireto do que usar informações de radicais.Será que o modelo consegue, a partir de bytes segmentados, "ver" pistas de radicais semelhantes e, na camada de cálculo, recompor esses elementos? Apesar de mais caro, essa estratégia poderia, teoricamente, melhorar a compreensão semântica, ao invés de simplesmente aceitar um número de token "caixa preta".Um artigo de 2025, publicado na *Computational Linguistics* do MIT Press, intitulado **"Tokenization Changes Meaning in Large Language Models: Evidence from Chinese"**, responde a essa questão.**4. Fragmentos que revelam radicais**O autor, David Haslett, nota uma coincidência histórica.Na década de 1990, a Unicode organizou os caracteres chineses por radical na hora de atribuir códigos UTF-8. Assim, caracteres com o mesmo radical tinham códigos próximos. "茶" e "茎" ambos têm o radical "艹" (cabelo de grama), e seus bytes UTF-8 começam com os mesmos bytes. "河" e "海" compartilham o radical "氵" (água), e seus bytes também têm prefixo comum.**Unicode ordenou os caracteres por radical, assim caracteres com o mesmo radical tinham códigos próximos | Fonte: Github**Isso significa que, ao dividir um caractere em três bytes UTF-8, caracteres com o mesmo radical compartilham o primeiro byte. Durante o treinamento, o modelo vê esses padrões repetidos e pode aprender que o primeiro byte comum indica uma categoria semântica, semelhante ao reconhecimento de radicais na leitura.Haslett realizou três experimentos para testar essa hipótese:1. Perguntar ao GPT-4, GPT-4o e Llama 3: **"Os caracteres '茶' e '茎' compartilham o mesmo radical semântico?"**2. Pedir ao modelo uma avaliação de similaridade semântica entre dois caracteres.3. Pedir ao modelo que identifique o diferente em uma lista de caracteres (tarefa de exclusão).Cada experimento controlou duas variáveis: se os caracteres realmente compartilhavam radical, e se, na segmentação, eles compartilhavam o primeiro token. Essa matriz 2×2 permitiu separar os efeitos do radical e do token.Os resultados foram consistentes: quando o caractere era dividido em múltiplos tokens (como na antiga tokenização do GPT-4, onde 89% dos caracteres eram múltiplos tokens), o modelo tinha maior precisão ao reconhecer radicais comuns; quando o caractere era codificado como um único token (como no GPT-4o, com 57% de caracteres em múltiplos tokens), a precisão caiu.Ou seja, a hipótese se confirmou: dividir os caracteres aumenta o custo, mas preserva pistas de radicais na sequência de bytes, que o modelo consegue aprender. Codificar o caractere inteiro, embora mais barato, oculta essas pistas.Importante: essa conclusão é válida apenas para tarefas de reconhecimento de componentes visuais e semânticos de caracteres. Não significa que a compreensão geral, raciocínio lógico ou geração de textos longos seja prejudicada. Além disso, GPT-4 e GPT-4o, além da diferença no tokenizador, também têm diferenças na arquitetura, treinamento e parâmetros, portanto, a variação de desempenho não pode ser atribuída unicamente ao tamanho do token.Essa descoberta foi confirmada por estudos práticos: em 2024, pesquisadores resegmentaram certos caracteres chineses em tokens longos, e o modelo passou a entender mal. Quando usaram um segmentador especializado para dividir esses tokens, a compreensão voltou ao normal.Hoje, a maioria dos grandes modelos acredita que **segmentar palavras ou caracteres inteiros, otimizando para o idioma, melhora o desempenho geral**. Essa estratégia reduz o custo de tokens, aumenta a quantidade de informação útil na janela de contexto, diminui o comprimento da sequência, reduz a latência e melhora a estabilidade na geração de textos longos. As vantagens de tarefas específicas, como reconhecimento de componentes, não compensam o impacto na performance geral.Porém, essa questão revela um problema fundamental: **você pode otimizar a parte que conhece, mas não sabe o que não sabe**. Unicode ordenado por radicais foi feito para facilitar buscas humanas. BPE, que divide caracteres em bytes, foi feito por baixa frequência no corpus. Duas decisões de engenharia, sem relação, criaram uma via semântica não planejada.Quando engenheiros tentaram "melhorar" o tokenizer, fundindo caracteres chineses em tokens únicos, inadvertidamente fecharam essa via semântica. A eficiência aumentou, o custo caiu, mas algo silenciosamente desapareceu, sem aviso.Portanto, a questão de "pagar mais pelo chinês na IA" é mais complexa do que parece. Cada tokenizer é uma otimização para um valor padrão, com custos escondidos em outro lugar.**5. Lin Yutang**O custo de adaptar o chinês às infraestruturas ocidentais não começou na era da IA.Em janeiro de 2025, Nelson Felix, residente em Nova York, postou no grupo de amantes de máquinas de escrever no Facebook algumas fotos de uma máquina de escrever com inscrições em chinês, herdada de seu bisavô. Não sabia sua origem. Logo, centenas de comentários surgiram.**Stanford sinólogo Thomas S. Mullaney reconheceu imediatamente: era o protótipo da "Máquina de Escrever Clara" de Lin Yutang, de 1947, desaparecida há quase 80 anos.**Em abril do mesmo ano, Felix e sua esposa venderam a máquina para a Biblioteca de Stanford.O problema que a "Máquina Clara" tentava resolver, e que hoje enfrentamos com os tokenizers, é o mesmo: **como integrar o chinês de forma eficiente em uma infraestrutura baseada no alfabeto romano**.Nos anos 1940, as máquinas de escrever em inglês tinham 26 teclas, uma por letra. Simples. Mas o chinês tem milhares de caracteres comuns, impossível de fazer uma tecla por caractere. Então, usavam um grande painel com milhares de caracteres em chumbo, e o operador escolhia os caracteres um a um, com uma velocidade de poucos caracteres por minuto.Em 1899, o missionário americano Sheffield inventou a primeira máquina de escrever chinesa, com um sistema de seleção de caracteres por componentes — uma inovação pioneira.｜Fonte: WikipediaLin Yutang gastou 120 mil dólares na pesquisa, quase à beira da falência, e encomendou à Carl E. Krum, de Nova York, uma máquina com apenas 72 teclas. O princípio era dividir os caracteres em componentes visuais, com teclas para a parte superior e inferior, e uma janela "mágica" para mostrar as opções. O operador escolhia por números. A máquina podia produzir 40 a 50 caracteres por minuto, suportando mais de 8 mil caracteres frequentes.(Esquerda) Janela de vidro transparente, a "janela mágica"; (direita) estrutura interna da máquina Clara｜Fonte: FacebookYutang elogiou: **"Tanto chineses quanto americanos, com um pouco de aprendizado, podem se familiarizar com esse teclado. Acho que é exatamente o que precisamos."**Tecnicamente, era uma inovação, mas fracassou comercialmente.Quando Yutang apresentou a máquina aos executivos da Remington, ela apresentou falhas, e os investidores perderam o interesse. Além disso, o alto custo e a crise financeira pessoal de Yutang impediram a produção em massa. Em 1948, ele vendeu o protótipo e os direitos comerciais para a Mergenthaler Linotype. A empresa desistiu da produção, e o protótipo desapareceu na mudança de sede na década de 1950, só reaparecendo em 2025.Na obra *Chinese Typewriters*, o sinólogo Thomas Mullaney avalia que a "Máquina Clara" "não foi um fracasso". Como produto dos anos 1940, ela falhou; mas, como paradigma de interação homem-máquina, foi vitoriosa.**Lin Yutang transformou a digitação chinesa em uma busca e seleção**. Três linhas de teclas para componentes, escolhendo entre candidatos. Essa lógica é a base de todos os métodos de entrada modernos: Cangjie, Wubi, Pinyin Sogou, todos descendentes da Máquina Clara.Essa máquina, que atravessou quase oito décadas, e o debate atual sobre tokenizers, escondem uma lei histórica: **o chinês sempre enfrentou um problema fundamental:****Como integrar uma infraestrutura baseada no alfabeto romano**.Curiosamente, nesse processo, coincidências não planejadas desempenharam papel importante. A ordenação do Unicode por radicais, feita para facilitar buscas humanas, e a divisão de bytes do BPE, por baixa frequência, acabaram, no "caixa preta" das redes neurais, reproduzindo o processo de reconhecimento de caracteres pelo cérebro humano. Quando engenheiros tentaram "melhorar" o custo do chinês, fundindo caracteres em tokens únicos, fecharam uma via semântica que eles nem sabiam que existia.A história não é uma linha reta de evolução, mas um fluxo que se molda sob várias restrições. Algumas capacidades são criadas por projeto, outras surgem por acaso, sem serem eliminadas.---Se precisar de alguma adaptação ou foco específico, posso ajustar a tradução.

Modelo de IA "Imposto Chinês": Por que o chinês consome mais tokens do que o inglês?

Tópicos em destaque

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

Fixar