Aran a traduit « La leçon amère » en 9 langues, testant les outils de segmentation de chaque modèle, en utilisant le nombre de tokens du texte original en anglais comme référence. Les résultats montrent que le même chinois présente des différences significatives de tokens selon les modèles : Claude 1,65 fois, OpenAI 1,15 fois, Kimi 0,81 fois, Qwen 0,85 fois ; Le hindi dépasse 3 fois avec Claude, Anthropic étant le plus bas. Conclusion : plus il y a de tokens, plus c'est cher, la qualité d'optimisation des outils de segmentation pour chaque langue détermine l'efficacité, et les langues avec une part de marché plus grande consomment moins de tokens.

BlockBeatNews

2026-04-29 08:22:06

Création du résumé en cours

Selon la surveillance Beating, le chercheur en IA Aran Komatsuzaki a traduit le célèbre article de Rich Sutton « La leçon amère » (The Bitter Lesson) en 9 langues, puis l’a alimenté dans les outils de tokenisation de 6 modèles : OpenAI, Gemini, Qwen, DeepSeek, Kimi, Claude. En utilisant le nombre de tokens de la version originale en anglais dans l’outil de tokenisation d’OpenAI comme référence, il a mesuré combien de fois chaque langue consommait de tokens sur chaque modèle. Résultat : le même contenu posé en chinois à Claude consomme 1,65 fois plus de tokens que la référence ; avec OpenAI, seulement 1,15 fois. L’hindi est encore plus exagéré sur Claude, dépassant 3 fois la référence. Parmi les 6 modèles, Anthropic est le dernier en termes d’efficacité.

La traduction modifie la longueur du texte, donc le ratio par rapport à l’anglais n’est pas parfaitement précis. Mais ce qui est plus convaincant, c’est la performance du même passage en chinois sur différents modèles (toujours en utilisant la même référence) : Kimi ne consomme que 0,81 fois (moins que l’anglais), Qwen 0,85 fois, tandis que Claude atteint 1,65 fois. Le texte est identique, la différence vient uniquement de l’efficacité des outils de tokenisation. Les modèles chinois traitent le chinois avec moins de tokens que l’anglais, ce qui indique que le problème ne vient pas du chinois lui-même, mais de l’optimisation des outils de tokenisation pour cette langue.

Pour l’utilisateur, plus de tokens signifie un coût API plus élevé, une attente plus longue avant la réponse du modèle, et une utilisation plus rapide de la fenêtre de contexte. L’efficacité des outils de tokenisation dépend de la proportion de chaque langue dans les données d’entraînement : plus de données en anglais, compression efficace des mots anglais ; moins de données non anglaises, découpage plus fragmenté. La conclusion d’Aran : celui qui a le plus grand marché consomme le moins de tokens.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
WCTCTradingKingPK
367.13K Popularité
#
CryptoMarketsDipSlightly
271.93K Popularité
#
IsraelStrikesIranBTCPlunges
36.04K Popularité
#
#DailyPolymarketHotspot
701.31K Popularité
#
StrategyAccumulates2xMiningRate
139.47M Popularité

Épingler

Claude en chinois : demander le même contenu coûte 65 % de tokens en plus que l'anglais, OpenAI seulement 15 % de plus

Sujets populaires

WCTCTradingKingPK

CryptoMarketsDipSlightly

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

StrategyAccumulates2xMiningRate

Épingler