Aran tradujo "Lecciones amargas" a 9 idiomas, probando las herramientas de tokenización de varios modelos, tomando como referencia el número de tokens en el texto original en inglés. Los resultados muestran que la misma chino tiene diferencias significativas en diferentes modelos: Claude 1.65 veces, OpenAI 1.15 veces, Kimi 0.81 veces, Qwen 0.85 veces; Hindi en Claude supera las 3 veces, siendo Anthropic la más baja. Conclusión: cuanto más tokens, más caro; la optimización de la tokenización para cada idioma determina la eficiencia, y los idiomas con mayor cuota de mercado usan menos tokens.

BlockBeatNews

2026-04-29 08:22:06

Generación de resúmenes en curso

Según el monitoreo de Beating, el investigador de IA Aran Komatsuzaki tradujo el conocido artículo de Rich Sutton «Las amargas lecciones» (The Bitter Lesson) a 9 idiomas, y lo alimentó en las herramientas de tokenización de 6 modelos: OpenAI, Gemini, Qwen, DeepSeek, Kimi y Claude. Tomando como referencia el número de tokens en la versión original en inglés en la herramienta de tokenización de OpenAI, se calculó cuántas veces más se usaron en cada idioma en cada modelo. El resultado: el mismo contenido preguntado en chino a Claude consume 1.65 veces más tokens que la referencia; en OpenAI solo 1.15 veces. El hindi en Claude es aún más exagerado, con más de 3 veces la referencia. Entre los 6 modelos, Anthropic quedó en último lugar en la comparación.

La traducción altera la longitud del texto, por lo que la proporción respecto al inglés no es completamente precisa. Pero lo más convincente es el rendimiento del mismo fragmento en chino en diferentes modelos (siguiendo la misma referencia): Kimi solo usa 0.81 veces (menos que en inglés), Qwen 0.85 veces, y en Claude llega a 1.65 veces. El texto es exactamente el mismo, la diferencia es puramente la eficiencia de la herramienta de tokenización. Los modelos chinos procesan el chino con menos tokens que el inglés, lo que indica que el problema no está en el chino en sí, sino en si la herramienta de tokenización ha sido optimizada para ese idioma.

Para los usuarios, más tokens significan un costo directo mayor en la API, mayor tiempo de espera antes de que el modelo responda, y un uso más rápido del contexto de la ventana. La eficiencia de la herramienta de tokenización depende de la proporción de cada idioma en los datos de entrenamiento: más datos en inglés, mayor compresión eficiente de las palabras en inglés; menos datos en otros idiomas, solo se puede dividir en fragmentos muy pequeños. La conclusión de Aran: quien tenga un mercado más grande, ahorra más tokens.

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
WCTCTradingKingPK
358.38K Popularidad
#
CryptoMarketsDipSlightly
262.33K Popularidad
#
IsraelStrikesIranBTCPlunges
35.94K Popularidad
#
#DailyPolymarketHotspot
696.29K Popularidad
#
StrategyAccumulates2xMiningRate
139.47M Popularidad

Anclado

El chino de Claude consume un 65% más de tokens que en inglés para la misma consulta, mientras que OpenAI solo un 15% más

Temas de actualidad

WCTCTradingKingPK

CryptoMarketsDipSlightly

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

StrategyAccumulates2xMiningRate

Anclado