Claude en chinois : demander le même contenu coûte 65 % de tokens en plus que l'anglais, OpenAI seulement 15 % de plus

robot
Création du résumé en cours

Selon la surveillance Beating, le chercheur en IA Aran Komatsuzaki a traduit le célèbre article de Rich Sutton « La leçon amère » (The Bitter Lesson) en 9 langues, puis l’a alimenté dans les outils de tokenisation de 6 modèles : OpenAI, Gemini, Qwen, DeepSeek, Kimi, Claude. En utilisant le nombre de tokens de la version originale en anglais dans l’outil de tokenisation d’OpenAI comme référence, il a mesuré combien de fois chaque langue consommait de tokens sur chaque modèle. Résultat : le même contenu posé en chinois à Claude consomme 1,65 fois plus de tokens que la référence ; avec OpenAI, seulement 1,15 fois. L’hindi est encore plus exagéré sur Claude, dépassant 3 fois la référence. Parmi les 6 modèles, Anthropic est le dernier en termes d’efficacité.

La traduction modifie la longueur du texte, donc le ratio par rapport à l’anglais n’est pas parfaitement précis. Mais ce qui est plus convaincant, c’est la performance du même passage en chinois sur différents modèles (toujours en utilisant la même référence) : Kimi ne consomme que 0,81 fois (moins que l’anglais), Qwen 0,85 fois, tandis que Claude atteint 1,65 fois. Le texte est identique, la différence vient uniquement de l’efficacité des outils de tokenisation. Les modèles chinois traitent le chinois avec moins de tokens que l’anglais, ce qui indique que le problème ne vient pas du chinois lui-même, mais de l’optimisation des outils de tokenisation pour cette langue.

Pour l’utilisateur, plus de tokens signifie un coût API plus élevé, une attente plus longue avant la réponse du modèle, et une utilisation plus rapide de la fenêtre de contexte. L’efficacité des outils de tokenisation dépend de la proportion de chaque langue dans les données d’entraînement : plus de données en anglais, compression efficace des mots anglais ; moins de données non anglaises, découpage plus fragmenté. La conclusion d’Aran : celui qui a le plus grand marché consomme le moins de tokens.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler