Aran traduziu «Lições Amargas» para 9 idiomas, testando as ferramentas de tokenização de vários modelos, com o número de tokens do texto original em inglês como referência. Os resultados mostraram que o mesmo texto em chinês apresenta diferenças significativas no número de tokens em diferentes modelos: Claude 1,65 vezes, OpenAI 1,15 vezes, Kimi 0,81 vezes, Qwen 0,85 vezes; em Hindi, no Claude, ultrapassou 3 vezes, sendo o Anthropic o mais baixo. Conclusão: quanto mais tokens, mais caro; a eficiência depende do grau de otimização da ferramenta de tokenização para cada idioma; idiomas com maior quota de mercado consomem menos tokens.

BlockBeatNews

2026-04-29 08:22:06

Geração de resumo em curso

De acordo com o monitoramento Beating, o investigador de IA Aran Komatsuzaki traduziu o famoso artigo de Rich Sutton “The Bitter Lesson” para 9 idiomas, alimentando as ferramentas de tokenização de modelos como OpenAI, Gemini, Qwen, DeepSeek, Kimi e Claude 6, e comparando o número de tokens utilizados em relação ao texto original em inglês, que serve como referência com um fator de 1. Resultado: o mesmo conteúdo perguntado em chinês ao Claude consome 1,65 vezes mais tokens do que a referência; usando OpenAI, apenas 1,15 vezes. O hindi no Claude é ainda mais exagerado, ultrapassando 3 vezes a referência. Entre os 6 modelos avaliados, o da Anthropic ficou em último lugar.

A tradução altera o comprimento do texto, portanto o fator em relação ao inglês não é completamente preciso. Mas o que é mais convincente é o desempenho do mesmo trecho em chinês em diferentes modelos (ainda usando a mesma referência): Kimi usa apenas 0,81 vezes (menos que o inglês), Qwen 0,85 vezes, enquanto Claude chega a 1,65 vezes. O texto é exatamente o mesmo, a diferença é puramente a eficiência da ferramenta de tokenização. Os modelos chineses processam o chinês de forma mais econômica do que o inglês, indicando que o problema não está na língua chinesa em si, mas na otimização da ferramenta de tokenização para esse idioma.

Para os usuários, mais tokens significam custos maiores na API, maior tempo de espera antes da resposta do modelo, e o uso mais rápido da janela de contexto. A eficiência da ferramenta de tokenização depende da proporção de idiomas nos dados de treinamento: mais dados em inglês resultam em uma compressão mais eficiente das palavras em inglês; menos dados em outros idiomas faz com que a segmentação seja mais fragmentada. A conclusão de Aran: quem tem maior mercado, economiza mais tokens.

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

Recompensa
gostar
Comentar
Republicar
Partilhar

Comentar

Adicionar um comentário

Nenhum comentário

Tópicos em destaque
Ver mais
#
WCTCTradingKingPK
358.38K Popularidade
#
CryptoMarketsDipSlightly
262.33K Popularidade
#
IsraelStrikesIranBTCPlunges
35.94K Popularidade
#
#DailyPolymarketHotspot
696.29K Popularidade
#
StrategyAccumulates2xMiningRate
139.47M Popularidade

Fixar

Claude em chinês: perguntar a mesma coisa consome 65% mais tokens do que em inglês, OpenAI só 15% a mais

Tópicos em destaque

WCTCTradingKingPK

CryptoMarketsDipSlightly

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

StrategyAccumulates2xMiningRate

Fixar