Клауд у китайській мові: запит тієї ж інформації коштує на 65% більше токенів, ніж англійською, OpenAI — лише на 15% більше

robot
Генерація анотацій у процесі

За даними моніторингу Beating, дослідник штучного інтелекту Аран Комацузаки переклав відому статтю Річа Саттона «Гіркий урок» (The Bitter Lesson) на 9 мов, щоб подати її у токенізатори моделей OpenAI, Gemini, Qwen, DeepSeek, Kimi, Claude 6, і порівняти кількість токенів у кожній мові. В якості бази взято кількість токенів англійського оригіналу у токенізаторі OpenAI, яка становить 1. Виявлено, що для однієї й тієї ж інформації при запиті до Claude українською витрачається у 1.65 разів більше токенів, ніж у базовому англійському варіанті; у OpenAI — лише у 1.15 разів. Для хінді у Claude ще більшою мірою — понад у 3 рази більше за базовий. У порівнянні шести моделей Anthropic показує найгірший результат.

Переклад змінює довжину тексту, тому коефіцієнти щодо англійської не є абсолютно точними. Однак більш переконливі дані — це показники для однієї й тієї ж української фрази на різних моделях (знову ж таки, з урахуванням однієї й тієї ж бази): Kimi витрачає лише 0.81 разу (менше за англійську), Qwen — 0.85 разу, а Claude — 1.65 разу. Текст один і той самий, різниця — виключно у ефективності токенізатора. Китайські моделі обробляють українську ще економніше, ніж англійську, що свідчить про те, що проблема не у самій мові, а у тому, чи був токенізатор оптимізований для цієї мови.

Для користувачів, чим більше токенів — тим дорожче API, довше очікування відповіді моделі, швидше вичерпання контекстного вікна. Ефективність токенізатора залежить від пропорції мов у тренувальних даних: більше англійських даних — ефективніше стиснення англійських слів; менше неанглійських — вони розбиті на дрібні частини. Висновок Арана: у кого ринок більший — той економить токени.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити