Claude em chinês: perguntar a mesma coisa consome 65% mais tokens do que em inglês, OpenAI só 15% a mais

robot
Geração de resumo em curso

De acordo com o monitoramento Beating, o investigador de IA Aran Komatsuzaki traduziu o famoso artigo de Rich Sutton “The Bitter Lesson” para 9 idiomas, alimentando as ferramentas de tokenização de modelos como OpenAI, Gemini, Qwen, DeepSeek, Kimi e Claude 6, e comparando o número de tokens utilizados em relação ao texto original em inglês, que serve como referência com um fator de 1. Resultado: o mesmo conteúdo perguntado em chinês ao Claude consome 1,65 vezes mais tokens do que a referência; usando OpenAI, apenas 1,15 vezes. O hindi no Claude é ainda mais exagerado, ultrapassando 3 vezes a referência. Entre os 6 modelos avaliados, o da Anthropic ficou em último lugar.

A tradução altera o comprimento do texto, portanto o fator em relação ao inglês não é completamente preciso. Mas o que é mais convincente é o desempenho do mesmo trecho em chinês em diferentes modelos (ainda usando a mesma referência): Kimi usa apenas 0,81 vezes (menos que o inglês), Qwen 0,85 vezes, enquanto Claude chega a 1,65 vezes. O texto é exatamente o mesmo, a diferença é puramente a eficiência da ferramenta de tokenização. Os modelos chineses processam o chinês de forma mais econômica do que o inglês, indicando que o problema não está na língua chinesa em si, mas na otimização da ferramenta de tokenização para esse idioma.

Para os usuários, mais tokens significam custos maiores na API, maior tempo de espera antes da resposta do modelo, e o uso mais rápido da janela de contexto. A eficiência da ferramenta de tokenização depende da proporção de idiomas nos dados de treinamento: mais dados em inglês resultam em uma compressão mais eficiente das palavras em inglês; menos dados em outros idiomas faz com que a segmentação seja mais fragmentada. A conclusão de Aran: quem tem maior mercado, economiza mais tokens.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixar