Штучний інтелект великих моделей «китайський податок»: чому китайська мова вимагає більше токенів ніж англійська?

Автор: Танг Ітао, джерело: Гіккер Парк

Кілька днів після випуску Opus 4.7, у X знову наростала незадоволеність. Хтось казав, що один діалог витратив весь її ліміт сесії, інші — що вартість виконання однієї й тієї ж програми зросла більш ніж удвічі порівняно з минулим тижнем; ще хтось виклав скріншот, де за менше ніж дві години підписки Max на 200 доларів вже досягла ліміту.

Незалежний розробник BridgeMind визнає, що Claude — найкраща модель у світі, але водночас і найдорожча. Його підписка Max не вистачила й двох годин, але на щастя — він купив дві.|джерело зображення: X@bridgemindai

Офіційна ціна Anthropic залишилася незмінною: мільйон вхідних токенів — 5 доларів, вихідних — 25 доларів. Але ця версія ввела новий токенізатор, а Claude Code підвищив рівень зусиль за замовчуванням з high до xhigh. Внаслідок двох змін, кількість токенів, необхідних для однієї й тієї ж роботи, зросла в 2-2,7 рази.

У цих обговореннях я побачив два твердження, що стосуються китайської мови. Одне — що у новому токенізаторі китайська майже не подорожчала, і користувачі, що говорять китайською, уникнули цього підвищення цін. Інше — ще цікавіше: старовинна китайська (古文) споживає менше токенів, ніж сучасна мова, тому спілкування з AI у стилі класичної літератури може зекономити кошти.

Перше твердження натякає, що Claude зробив якусь оптимізацію для китайської, але у документації Anthropic не згадано жодних налаштувань, що стосуються саме китайської мови.

Друге — важче пояснити. Старовинна китайська, очевидно, важча для людського читача, ніж сучасна. Як може бути, що для AI вона легша?

Тому я провів тест, використовуючи 22 паралельних текстових фрагменти (з бізнес-новин, технічних документів,古文, щоденних діалогів тощо), одночасно пропускаючи їх через 5 токенізаторів (Claude 4.6 і 4.7, GPT-4o, Qwen 3.6, DeepSeek-V3), і порівнюючи кількість токенів у кожному фрагменті для кожної моделі.

Тестові тексти:

  1. щоденні діалоги англійською та китайською (подорожі, форуми, прохання допомоги)

  2. технічні документи англійською та китайською (документи Python, документація Anthropic)

  3. новини англійською та китайською (політичні новини NYT, бізнес-новини NYT, офіційні заяви Apple)

  4. літературні уривки англійською та古汉语 (《出师表》《道德经》)

Після аналізу обох тверджень частково підтвердилися, але реальність виявилася складнішою за чутки.

**1. Китайський податок

Спершу — висновки:

  1. На Claude і GPT, китайська завжди дорожча за англійську

  2. На Qwen і DeepSeek — навпаки, дешевша за англійську

  3. Оновлення токенізатора у Opus 4.7, що спричинило коливання цін, майже торкнулося лише англійської, китайська залишилася незмінною

Давайте подивимося на конкретні цифри. У всій лінійці моделей Claude до Opus 4.7 (включно з Opus 4.6, Sonnet, Haiku) використовувався один і той самий токенізатор. За його допомогою, для китайських текстів витрати токенів були вищими за англійські, співвідношення cn/en коливалося від 1.11× до 1.64×.

Найбільш екстремальний випадок — новини у стилі NYT: одна й та сама частина тексту, китайська версія, споживає на 64% більше токенів, тобто коштує на 64% більше.

Opus 4.6 і попередні моделі Claude — китайські токени значно дорожчі за інші (червока рамка)

Найекстремальніший випадок — новини у стилі NYT: одна й та сама частина тексту, китайська версія, споживає на 64% більше токенів (зелена рамка)

GPT-4o з токенізатором o200k — краще, співвідношення cn/en переважно в межах 1.0–1.35×, у деяких випадках нижче 1.0. Загалом, китайська мова залишається дорожчою, але різниця з Claude значно менша.

Дані для внутрішніх моделей Qwen 3.6 і DeepSeek-V3 цілком протилежні. Вони мають широке зниження cn/en — у більшості випадків менше 1, тобто для однакового змісту китайська версія споживає менше токенів, ніж англійська. DeepSeek досягло мінімуму 0.65×, тобто китайський текст у три рази дешевший за англійський.

Новий токенізатор у Opus 4.7, що викликав інфляцію, майже не торкнувся англійської. Кількість англійських токенів зросла в межах 1.24–1.63×, тоді як китайські залишилися майже незмінними — 1.000×. Це пояснює, чому перші англомовні розрахунки були більш схвильовані, а китайські користувачі не відчули особливих змін. Можливо, причина в тому, що у попередніх версіях китайські символи вже були розбиті на одиниці — окремі ієрогліфи, і простір для додаткового розбиття був мінімальним.


Порівняння Opus 4.7 і 4.6 — англійські токени стали більше, китайські — ні

Під час тестування я також помітив одну річ. Різниця у споживанні токенів — це не лише питання рахунків. Вона безпосередньо впливає на розмір робочого простору. За однакової довжини контексту (близько 200 тис. токенів), старий токенізатор Claude для китайських даних дозволяє вмістити менше інформації — на 40–70% менше, ніж англійською.

Для одних і тих самих задач, наприклад, аналізу довгого документа або підсумовування конференційних записів, китайські користувачі можуть подати менше матеріалу, а модель — врахувати менше контексту. В результаті — платять більше, але отримують менший робочий простір.

Об’єднаний аналіз чотирьох наборів даних дає один висновок:

Чому одна й та сама інформація, подана мовою, має різну кількість токенів? Чому у Claude і GPT китайська дорожча, а у Qwen і DeepSeek — дешевша?

Відповідь — у концепції токенізатора (розбиття на токени), про яку я вже згадував.

**2. Скільки шматків може бути у одному ієрогліфі?

Перед тим, як модель починає читати будь-який текст, вона розбиває його на токени за допомогою токенізатора. Можна уявити його як «конструктор блоків» для AI. Ви вводите речення — він розбиває його на стандартні «цеглинки» (токени). Модель не бачить слова, вона бачить їхні номери. Скільки блоків — стільки й платите.

Англійські слова зазвичай розбиті логічно: «intelligence» — один токен, «information» — один токен, кожне слово — окремий платіжний блок.

Але з китайською виникає проблема. Якщо подати одне й те саме речення «人工智能正在重塑全球的信息基础设施» у токенізаторі GPT-4 cl100k і Qwen 2.5, результати будуть дуже різними.

GPT-4 зазвичай розбиває кожен ієрогліф на окремий токен; Qwen ж розглядає цілі слова як один токен, наприклад, «人工智能» — це 4 ієрогліфи, але в Qwen — один токен.


Одна й та сама фраза з 16 ієрогліфів у GPT-4 розбивається на 19 токенів, у Qwen — лише на 6.

Чому так? Вина — у алгоритмі BPE (Byte Pair Encoding).

BPE працює так: аналізує частоту появи комбінацій символів у тренувальному корпусі, і найчастіше з’являються високочастотні пари об’єднує у один токен, додаючи його до словника.

У часи GPT-2 більшість тренувальних даних — англійська. Сполучення літер (th, ing, tion) швидко об’єднуються у токени. Для китайських символів, що зустрічаються дуже рідко, вони не потрапляють до словника і обробляються як байти — кожен ієрогліф займає 3 байти, тобто 3 токени.

BPE об’єднує символи відповідно до їх частоти у корпусі. За домінування англійської, китайські символи у UTF-8 не об’єднуються у цілі слова.

Згодом, у GPT-4 з розширеним словником cl100k, популярні ієрогліфи почали включати у словник, і один ієрогліф тепер зазвичай займає 1–2 токени, але ефективність все ще поступається англійській.

З появою GPT-4o з словником o200k, ефективність китайської ще зросла. Це також пояснює, чому у перших даних співвідношення cn/en у GPT-4o нижче, ніж у Claude.

Qwen і DeepSeek — це внутрішні моделі, що з самого початку включили багато поширених ієрогліфів і фраз у словник як цілі слова. Один ієрогліф — один токен, і це подвоює або навіть потроює ефективність.

Приклади розбиття одного й того ж речення різними токенізаторами

Саме тому їхнє співвідношення cn/en може бути менше 1. Китайські ієрогліфи мають вищу інформаційну щільність, ніж англійські слова, і коли токенізатор не розбиває їх штучно, цей природний перевага проявляється.

Отже, різниця у даних попередніх розрахунків — не у здатностях моделей, а у словниках токенізаторів, що залишили місце для китайської мови.

Claude і ранні GPT будувалися на англійському словнику за замовчуванням, китайські символи додавалися пізніше; Qwen і DeepSeek — з самого початку враховували китайську як основну мову. Ця різниця у стартових налаштуваннях впливає на кількість токенів, рахунки, розмір контексту.

**3. Чи справді古文 дешевша?

Ще раз повернемося до другого чутки: 古文 — дешевша за сучасну мову.

Дані підтвердили цю ідею. У тестах,古文-версії мають співвідношення cn/en менше 1, і на всіх п’яти токенізаторах. Одна й та сама частина тексту у古文 — менша за кількістю токенів, ніж її англійський переклад.

У всіх моделях古文 споживає менше токенів, ніж сучасна китайська, і навіть менше англійської

Причина — у тому, що古文 дуже стисла у виборі слів. «學而不思則罔,思而不學則殆» — 12 ієрогліфів. Переклад сучасною мовою — «просто навчаєшся, але не думаєш — будеш у невіданні; думаєш, але не навчаєшся — у біді», — і кількість слів подвоїться, а токенів — відповідно.

Крім того,常用字 (之、也、者、而、不) — високочастотні символи, що мають окремі позиції у словнику будь-якого токенізатора і не розбиваються на байти. Тому古文 дійсно ефективна у кодуванні.

Але тут є пастка.

Токени古文 — дешеві у кодуванні, але навантаження на модель — ні. «罔» — один ієрогліф, і модель має визначити його значення у контексті: «збентежити», «обдурити» чи «відсутній». Сучасна мова може передати цю ідею 26-ма символами, а古文 — лише одним ієрогліфом, але модель має зробити складне висновок. Це — компресія, що вимагає більше обчислень.

Менше токенів — більше навантаження на розуміння, і точність може знизитися. Це — баланс, який важко підрахувати.

Цей приклад показує, що кількість токенів сама по собі не дає повної картини. Але, розглядаючи цю ідею далі, я зрозумів ще одну важливу річ.

Раніше я згадував, що у GPT-2 токенізатор розбивав слово «人» на три байти у UTF-8, тоді як у GPT-4 словник розширився, і поширені ієрогліфи стали одним токеном, а Qwen — ще більше: «人工智能» — один токен.

Інтуїтивно, це — процес постійного покращення: чим більше об’єднуєш, тим ефективніше. Модель краще розуміє.

Але чи так це насправді? Давайте згадаємо, як ми вивчаємо ієрогліфи.

Ієрогліфи — ідеограми, понад 80% сучасних — складені з радикалів і фонетичних компонентів. «氵» — пов’язаний із рідинами, «木» — із рослинами, «火» — із теплом. Радикали — базові семантичні підказки для розпізнавання ієрогліфів. Людина, що не знає «焱», все одно здогадається, що він пов’язаний із вогнем, побачивши три «火».

Оскільки радикали — основа розпізнавання, люди спершу визначають значення за структурою, а потім — за контекстом.


«火花», «火焰», «光焰» — у писемній мові і іменах, символізують світло і жар.

Але у словнику токенізатора «焱» — це число. Припустимо, 38721 — індекс у словнику. Модель через нього шукає вектор, що репрезентує цей ієрогліф.

Сам номер не містить інформації про внутрішню структуру. 38721 і 38722 — для моделі рівнозначні, як 1 і 10000. Тобто «структура ієрогліфу» — прихована. Три «火» у числовому представленні — відсутні.

Звісно, модель може через тренування навчитися, що «焱», «炎», «灼» часто з’являються у схожих контекстах, але цей шлях — опосередкований.

Чи може модель, розбиваючи ієрогліфи на байти, «бачити» схожі радикальні ознаки і потім у процесі обчислень відновлювати їх? Хоча це — дорожче за кількістю токенів, можливо, у семантичному розумінні такий підхід був би ефективнішим, ніж просто обробляти «невидимий» номер.

У статті, опублікованій у 2025 році у журналі «Computational Linguistics» MIT Press («Tokenization Changes Meaning in Large Language Models: Evidence from Chinese»), дослідники відповіли на це питання.

**4. Фрагменти з радикалами

Автор статті, Девід Хаслетт, помітив історичний збіг.

У 1990-х Unicode-спільнота при розподілі кодів для китайських ієрогліфів у UTF-8 групувала їх за радикалами. Ієрогліфи з одним і тим самим радикалом мали схожий початковий байт у кодуванні. «茶» і «茎» містять радикал «艹» (трава), і їхні байтові послідовності починаються однаково. «河» і «海» — з радикалом «氵», і їхні байти теж співпадають на початку.


UTF-8, згідно з порядком радикалів, класифікує ієрогліфи так, що спільний радикал — спільний перший байт. Це означає, що при розбитті ієрогліфів на три байти, ієрогліфи з одним радикалом матимуть спільний перший токен. У процесі тренування модель багато разів бачить ці спільні байтові шаблони і може навчитися, що «перша частина» у таких токенах — ознака спільної семантики. Це — функціонально схоже на людське визначення значення за радикалами.

Хаслетт провів три експерименти, щоб перевірити цю гіпотезу.

Перший — запитати GPT-4, GPT-4o і Llama 3: «Чи мають «茶» і «茎» спільний радикал?»

Другий — попросити модель оцінити семантичну схожість двох ієрогліфів.

Третій — завдання на пошук «відмінних» ієрогліфів у групі.

Усі три експерименти мали дві змінні: чи справді ієрогліфи мають спільний радикал, і чи у токенізаторі вони поділяються на один і той самий перший токен. Така 2×2 схема дозволила ізолювати ефекти радикалів і вплив розбиття на токени.

Результати — одностайні: коли ієрогліфи розбиваються на кілька токенів (наприклад, у старому GPT-4, 89% ієрогліфів — багатотокенні), модель краще розпізнає спільний радикал; коли ієрогліфи — один токен (у GPT-4o — лише 57%), точність знижується.

Отже, гіпотеза підтвердилася: розбиття ієрогліфів на байти підвищує ймовірність збереження радикальної інформації. Модель навчається «бачити» ознаки радикалів у байтових послідовностях. А коли ієрогліф — один токен, ця інформація прихована.

Зверніть увагу, що цей висновок — лише для задач, що пов’язані з морфологічною структурою ієрогліфів, і не означає, що зменшення кількості токенів погіршує загальне розуміння мови, логіку або здатність довгого генерування тексту. Також, порівняння GPT-4 і GPT-4o — окремі моделі з різними архітектурами, тренувальними даними і параметрами, тому не можна цілком приписувати зміни у точності лише розбиттю.

Це відкриття підтвердили й інженерні дослідження. У 2024 році дослідження GPT-4o показало, що коли модель отримує довгі токени, що об’єднують кілька ієрогліфів у один, вона починає помилятися у розумінні. Якщо ж ці токени розбити на окремі ієрогліфи за допомогою спеціального китайського сегментатора, точність відновлюється.

Загалом, у галузі великих моделей поширена думка, що оптимізація під цільову мову — це шлях до підвищення ефективності. Вони зменшують кількість токенів, підвищують корисність контексту, знижують затримки. Але дослідження показують, що детальніше вивчення морфології ієрогліфів і їхнього кодування може дати додаткові переваги у специфічних задачах.

Проте, ця деталь — ілюстрація того, що у системах з обмеженими знаннями про внутрішню структуру, існує ризик «загубити» важливі шляхи оптимізації. Unicode, BPE — це рішення, що були зроблені для людського сприйняття і зручності, але у нейромережах вони створюють неочевидні «сліпі» зони.

Коли інженери намагаються «покращити» токенізатор, об’єднуючи ієрогліфи у цілі слова, вони одночасно закривають можливість моделі «бачити» внутрішню морфологію. Це — баланс між ефективністю і глибиною розуміння, і він не завжди очевидний.

Отже, історія показує: не все, що зроблено для зручності людського сприйняття, автоматично є оптимальним для машинного розуміння. Іноді — навпаки, — саме «загублені» шляхи відкривають нові можливості.

**5. Лін Юйтан

Вартість адаптації китайської мови до західної технічної інфраструктури — не почалася з епохи AI.

У січні 2025 року мешканець Нью-Йорка Нельсон Фелікс у групі Facebook, присвяченій друкарським машинкам, виклав кілька фотографій. Він знайшов у спадщині своєї дружини дідову друкарську машинку з написами китайською — і не знав, що це за модель. Швидко з’явилися сотні коментарів.


Стівфордський лінгвіст, дослідник Молліней, Томас С. Муллей, одразу впізнав — це «Мінкуай» друкарська машина, створена Лін Юйтаном у 1947 році, єдина у своєму роді, зникла майже 80 років тому. У квітні того ж року Фелікс із дружиною продали її до бібліотеки Стенфордського університету.

Мінкуай був створений для вирішення тієї ж проблеми, що й сучасні токенізатори: як ефективно інтегрувати китайську у західну технічну інфраструктуру.

У 1940-х роках англійські друкарські машини мали 26 літер, кожна — одна клавіша. Китайські ж ієрогліфи — тисячі, і одна клавіша — один ієрогліф неможливо. Тому тоді використовували величезний набір літер, що містив тисячі металевих символів, і друкарі підбирали їх вручну, друкуючи по кілька слів за хвилину.

1899 рік, американський місіонер Шевфілд (Devello Z. Sheffield) винайшов першу китайську друкарську машину — фото з Wikipedia

Лін Юйтан витратив 120 тисяч доларів на розробку, майже розорився, і замовив у компанії Карла Крума у Нью-Йорку друкарську машину з 72 клавішами. Вона працювала так: розбивала ієрогліфи на частини за структурою, верхню і нижню, і за допомогою вибору цифрами з’являлися відповідні частини. В середньому — 40-50 символів за хвилину, підтримувала понад 8000 поширених ієрогліфів.

(ліворуч) прозора «магічна» скринька — «очко» друкарської машини; (праворуч) внутрішня структура Мінкуай — фото з Facebook

Заява Юйтаня: «Якщо китайці й американці трохи навчатимуться, вони швидко освоять цю клавіатуру. Це — саме те, що нам потрібно у друкарстві».

Технічно Мінкуай — прорив, але з комерційної точки зору — провал.

Коли Юйтан демонстрував її керівникам компанії Реймінгтон, машина зламалася, і інвестори втратили інтерес. Висока вартість і особисті фінансові труднощі Юйтаня призвели до того, що масове виробництво стало неможливим. У 1948 році він продав прототип і права на комерціалізацію компанії Mergenthaler Linotype. Вона відмовилася від масового виробництва, а прототип у 1950-х роках був забутий і зник. Лише у 2025 році він знову з’явився на світ.

Молліней у своїй книзі «Китайська друкарська машина» зробив висновок, що Мінкуай «не був провалом». Як продукт 1940-х років — він не вижив, але як новий тип взаємодії людини і машини — переміг.

Лін Юйтан вперше зробив китайське «друкування» — «пошук і вибір». Три ряди клавіш для пошуку частин ієрогліфів, вибір із кандидатів — це і є основа сучасних китайських методів введення. Від Чжаньє, Віби до пошукових систем — всі вони — нащадки Мінкуай.

Ця машина, що пройшла майже 80 років, і сьогоднішні обговорення токенізаторів — мають спільну історичну закономірність: китайська мова завжди стикалася з однією проблемою:

як інтегрувати її у систему, побудовану на латинському алфавіті.

Цікаво, що у цьому пошуку випадкові збіги і непередбачені рішення — не людський задум, а історичний збіг. Упорядкування Unicode за радикалами і BPE — це рішення, що було зроблено для зручності людського пошуку, але у нейромережах воно створює «сліпі» зони, які можна назвати «невидимими шляхами» для оптимізації.

Коли інженери намагаються «покращити» токенізатор, об’єднуючи ієрогліфи у цілі слова, вони одночасно закривають можливість моделі «бачити» внутрішню морфологію. Це — баланс між ефективністю і глибиною розуміння, і він не завжди очевидний.

Історія показує: не все, що зроблено для зручності людського сприйняття, є оптимальним для машинного. Іноді — саме «загублені» шляхи відкривають нові можливості.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити