Штучний інтелект великих моделей «китайський податок»: чому китайська мова вимагає більше токенів ніж англійська?

Question

Автор: Танг Ітао, джерело: Гіккер ПаркКілька днів після випуску Opus 4.7, у X знову наростала незадоволеність. Хтось казав, що один діалог витратив весь її ліміт сесії, інші — що вартість виконання однієї й тієї ж програми зросла більш ніж удвічі порівняно з минулим тижнем; ще хтось виклав скріншот, де за менше ніж дві години підписки Max на 200 доларів вже досягла ліміту.Незалежний розробник BridgeMind визнає, що Claude — найкраща модель у світі, але водночас і найдорожча. Його підписка Max не вистачила й двох годин, але на щастя — він купив дві.｜джерело зображення: X@bridgemindaiОфіційна ціна Anthropic залишилася незмінною: мільйон вхідних токенів — 5 доларів, вихідних — 25 доларів. Але ця версія ввела новий токенізатор, а Claude Code підвищив рівень зусиль за замовчуванням з high до xhigh. Внаслідок двох змін, кількість токенів, необхідних для однієї й тієї ж роботи, зросла в 2-2,7 рази.У цих обговореннях я побачив два твердження, що стосуються китайської мови. Одне — що у новому токенізаторі китайська майже не подорожчала, і користувачі, що говорять китайською, уникнули цього підвищення цін. Інше — ще цікавіше: **старовинна китайська (古文) споживає менше токенів, ніж сучасна мова, тому спілкування з AI у стилі класичної літератури може зекономити кошти**.Перше твердження натякає, що Claude зробив якусь оптимізацію для китайської, але у документації Anthropic не згадано жодних налаштувань, що стосуються саме китайської мови.Друге — важче пояснити. Старовинна китайська, очевидно, важча для людського читача, ніж сучасна. Як може бути, що для AI вона легша?Тому я провів тест, використовуючи 22 паралельних текстових фрагменти (з бізнес-новин, технічних документів,古文, щоденних діалогів тощо), одночасно пропускаючи їх через 5 токенізаторів (Claude 4.6 і 4.7, GPT-4o, Qwen 3.6, DeepSeek-V3), і порівнюючи кількість токенів у кожному фрагменті для кожної моделі.Тестові тексти:1. щоденні діалоги англійською та китайською (подорожі, форуми, прохання допомоги)2. технічні документи англійською та китайською (документи Python, документація Anthropic)3. новини англійською та китайською (політичні новини NYT, бізнес-новини NYT, офіційні заяви Apple)4. літературні уривки англійською та古汉语 (《出师表》《道德经》)Після аналізу обох тверджень частково підтвердилися, але реальність виявилася складнішою за чутки.**1. ****Китайський податок****  -------------Спершу — висновки:1. **На Claude і GPT, китайська завжди дорожча за англійську**2. **На Qwen і DeepSeek — навпаки, дешевша за англійську**3. **Оновлення токенізатора у Opus 4.7, що спричинило коливання цін, майже торкнулося лише англійської, китайська залишилася незмінною**Давайте подивимося на конкретні цифри. У всій лінійці моделей Claude до Opus 4.7 (включно з Opus 4.6, Sonnet, Haiku) використовувався один і той самий токенізатор. За його допомогою, для китайських текстів витрати токенів були вищими за англійські, співвідношення cn/en коливалося від 1.11× до 1.64×.Найбільш екстремальний випадок — новини у стилі NYT: одна й та сама частина тексту, китайська версія, споживає на 64% більше токенів, тобто коштує на 64% більше.Opus 4.6 і попередні моделі Claude — китайські токени значно дорожчі за інші (червока рамка)Найекстремальніший випадок — новини у стилі NYT: одна й та сама частина тексту, китайська версія, споживає на 64% більше токенів (зелена рамка)GPT-4o з токенізатором o200k — краще, співвідношення cn/en переважно в межах 1.0–1.35×, у деяких випадках нижче 1.0. Загалом, китайська мова залишається дорожчою, але різниця з Claude значно менша.Дані для внутрішніх моделей Qwen 3.6 і DeepSeek-V3 цілком протилежні. Вони мають широке зниження cn/en — у більшості випадків менше 1, тобто для однакового змісту китайська версія споживає менше токенів, ніж англійська. **DeepSeek досягло мінімуму 0.65×, тобто китайський текст у три рази дешевший за англійський**.Новий токенізатор у Opus 4.7, що викликав інфляцію, майже не торкнувся англійської. Кількість англійських токенів зросла в межах 1.24–1.63×, тоді як китайські залишилися майже незмінними — 1.000×. Це пояснює, чому перші англомовні розрахунки були більш схвильовані, а китайські користувачі не відчули особливих змін. Можливо, причина в тому, що у попередніх версіях китайські символи вже були розбиті на одиниці — окремі ієрогліфи, і простір для додаткового розбиття був мінімальним.********Порівняння Opus 4.7 і 4.6 — англійські токени стали більше, китайські — ніПід час тестування я також помітив одну річ. Різниця у споживанні токенів — це не лише питання рахунків. Вона безпосередньо впливає на розмір робочого простору. За однакової довжини контексту (близько 200 тис. токенів), старий токенізатор Claude для китайських даних дозволяє вмістити менше інформації — на 40–70% менше, ніж англійською.Для одних і тих самих задач, наприклад, аналізу довгого документа або підсумовування конференційних записів, китайські користувачі можуть подати менше матеріалу, а модель — врахувати менше контексту. В результаті — платять більше, але отримують менший робочий простір.Об’єднаний аналіз чотирьох наборів даних дає один висновок:**Чому одна й та сама інформація, подана мовою, має різну кількість токенів? Чому у Claude і GPT китайська дорожча, а у Qwen і DeepSeek — дешевша?**Відповідь — у концепції токенізатора (розбиття на токени), про яку я вже згадував.**2. ****Скільки шматків може бути у одному ієрогліфі?****  ----------------------Перед тим, як модель починає читати будь-який текст, вона розбиває його на токени за допомогою токенізатора. Можна уявити його як «конструктор блоків» для AI. Ви вводите речення — він розбиває його на стандартні «цеглинки» (токени). Модель не бачить слова, вона бачить їхні номери. Скільки блоків — стільки й платите.Англійські слова зазвичай розбиті логічно: «intelligence» — один токен, «information» — один токен, кожне слово — окремий платіжний блок.Але з китайською виникає проблема. Якщо подати одне й те саме речення «人工智能正在重塑全球的信息基础设施» у токенізаторі GPT-4 cl100k і Qwen 2.5, результати будуть дуже різними.GPT-4 зазвичай розбиває кожен ієрогліф на окремий токен; Qwen ж розглядає цілі слова як один токен, наприклад, «人工智能» — це 4 ієрогліфи, але в Qwen — один токен.********Одна й та сама фраза з 16 ієрогліфів у GPT-4 розбивається на 19 токенів, у Qwen — лише на 6.Чому так? Вина — у алгоритмі BPE (Byte Pair Encoding).BPE працює так: аналізує частоту появи комбінацій символів у тренувальному корпусі, і найчастіше з’являються високочастотні пари об’єднує у один токен, додаючи його до словника.У часи GPT-2 більшість тренувальних даних — англійська. Сполучення літер (th, ing, tion) швидко об’єднуються у токени. Для китайських символів, що зустрічаються дуже рідко, вони не потрапляють до словника і обробляються як байти — кожен ієрогліф займає 3 байти, тобто 3 токени.BPE об’єднує символи відповідно до їх частоти у корпусі. За домінування англійської, китайські символи у UTF-8 не об’єднуються у цілі слова.Згодом, у GPT-4 з розширеним словником cl100k, популярні ієрогліфи почали включати у словник, і один ієрогліф тепер зазвичай займає 1–2 токени, але ефективність все ще поступається англійській.З появою GPT-4o з словником o200k, ефективність китайської ще зросла. Це також пояснює, чому у перших даних співвідношення cn/en у GPT-4o нижче, ніж у Claude.Qwen і DeepSeek — це внутрішні моделі, що з самого початку включили багато поширених ієрогліфів і фраз у словник як цілі слова. Один ієрогліф — один токен, і це подвоює або навіть потроює ефективність.Приклади розбиття одного й того ж речення різними токенізаторамиСаме тому їхнє співвідношення cn/en може бути менше 1. **Китайські ієрогліфи мають вищу інформаційну щільність, ніж англійські слова, і коли токенізатор не розбиває їх штучно, цей природний перевага проявляється**.Отже, різниця у даних попередніх розрахунків — не у здатностях моделей, а у словниках токенізаторів, що залишили місце для китайської мови.Claude і ранні GPT будувалися на англійському словнику за замовчуванням, китайські символи додавалися пізніше; Qwen і DeepSeek — з самого початку враховували китайську як основну мову. Ця різниця у стартових налаштуваннях впливає на кількість токенів, рахунки, розмір контексту.**3. ****Чи справді古文 дешевша?****  -------------------Ще раз повернемося до другого чутки: **古文 — дешевша за сучасну мову**.Дані підтвердили цю ідею. У тестах,古文-версії мають співвідношення cn/en менше 1, і на всіх п’яти токенізаторах. Одна й та сама частина тексту у古文 — менша за кількістю токенів, ніж її англійський переклад.У всіх моделях古文 споживає менше токенів, ніж сучасна китайська, і навіть менше англійськоїПричина — у тому, що古文 дуже стисла у виборі слів. «學而不思則罔，思而不學則殆» — 12 ієрогліфів. Переклад сучасною мовою — «просто навчаєшся, але не думаєш — будеш у невіданні; думаєш, але не навчаєшся — у біді», — і кількість слів подвоїться, а токенів — відповідно.Крім того,常用字 (之、也、者、而、不) — високочастотні символи, що мають окремі позиції у словнику будь-якого токенізатора і не розбиваються на байти. Тому古文 дійсно ефективна у кодуванні.Але тут є пастка.**Токени古文 — дешеві у кодуванні, але навантаження на модель — ні**. «罔» — один ієрогліф, і модель має визначити його значення у контексті: «збентежити», «обдурити» чи «відсутній». Сучасна мова може передати цю ідею 26-ма символами, а古文 — лише одним ієрогліфом, але модель має зробити складне висновок. Це — компресія, що вимагає більше обчислень.**Менше токенів — більше навантаження на розуміння, і точність може знизитися**. Це — баланс, який важко підрахувати.Цей приклад показує, що кількість токенів сама по собі не дає повної картини. Але, розглядаючи цю ідею далі, я зрозумів ще одну важливу річ.Раніше я згадував, що у GPT-2 токенізатор розбивав слово «人» на три байти у UTF-8, тоді як у GPT-4 словник розширився, і поширені ієрогліфи стали одним токеном, а Qwen — ще більше: «人工智能» — один токен.Інтуїтивно, це — процес постійного покращення: чим більше об’єднуєш, тим ефективніше. Модель краще розуміє.Але чи так це насправді? Давайте згадаємо, як ми вивчаємо ієрогліфи.Ієрогліфи — ідеограми, понад 80% сучасних — складені з радикалів і фонетичних компонентів. «氵» — пов’язаний із рідинами, «木» — із рослинами, «火» — із теплом. **Радикали — базові семантичні підказки для розпізнавання ієрогліфів.** Людина, що не знає «焱», все одно здогадається, що він пов’язаний із вогнем, побачивши три «火».Оскільки радикали — основа розпізнавання, люди спершу визначають значення за структурою, а потім — за контекстом.********«火花», «火焰», «光焰» — у писемній мові і іменах, символізують світло і жар.Але у словнику токенізатора «焱» — це число. Припустимо, 38721 — індекс у словнику. Модель через нього шукає вектор, що репрезентує цей ієрогліф.Сам номер не містить інформації про внутрішню структуру. 38721 і 38722 — для моделі рівнозначні, як 1 і 10000. Тобто «структура ієрогліфу» — прихована. Три «火» у числовому представленні — відсутні.Звісно, модель може через тренування навчитися, що «焱», «炎», «灼» часто з’являються у схожих контекстах, але цей шлях — опосередкований.Чи може модель, розбиваючи ієрогліфи на байти, «бачити» схожі радикальні ознаки і потім у процесі обчислень відновлювати їх? Хоча це — дорожче за кількістю токенів, можливо, у семантичному розумінні такий підхід був би ефективнішим, ніж просто обробляти «невидимий» номер.У статті, опублікованій у 2025 році у журналі «Computational Linguistics» MIT Press («Tokenization Changes Meaning in Large Language Models: Evidence from Chinese»), дослідники відповіли на це питання.**4. ****Фрагменти з радикалами****  ----------------------Автор статті, Девід Хаслетт, помітив історичний збіг.У 1990-х Unicode-спільнота при розподілі кодів для китайських ієрогліфів у UTF-8 групувала їх за радикалами. Ієрогліфи з одним і тим самим радикалом мали схожий початковий байт у кодуванні. «茶» і «茎» містять радикал «艹» (трава), і їхні байтові послідовності починаються однаково. «河» і «海» — з радикалом «氵», і їхні байти теж співпадають на початку.********UTF-8, згідно з порядком радикалів, класифікує ієрогліфи так, що спільний радикал — спільний перший байт. Це означає, що при розбитті ієрогліфів на три байти, ієрогліфи з одним радикалом матимуть спільний перший токен. У процесі тренування модель багато разів бачить ці спільні байтові шаблони і може навчитися, що «перша частина» у таких токенах — ознака спільної семантики. Це — функціонально схоже на людське визначення значення за радикалами.Хаслетт провів три експерименти, щоб перевірити цю гіпотезу.Перший — запитати GPT-4, GPT-4o і Llama 3: **«Чи мають «茶» і «茎» спільний радикал?»**Другий — попросити модель оцінити семантичну схожість двох ієрогліфів.Третій — завдання на пошук «відмінних» ієрогліфів у групі.Усі три експерименти мали дві змінні: чи справді ієрогліфи мають спільний радикал, і чи у токенізаторі вони поділяються на один і той самий перший токен. Така 2×2 схема дозволила ізолювати ефекти радикалів і вплив розбиття на токени.Результати — одностайні: коли ієрогліфи розбиваються на кілька токенів (наприклад, у старому GPT-4, 89% ієрогліфів — багатотокенні), модель краще розпізнає спільний радикал; коли ієрогліфи — один токен (у GPT-4o — лише 57%), точність знижується.Отже, гіпотеза підтвердилася: розбиття ієрогліфів на байти підвищує ймовірність збереження радикальної інформації. Модель навчається «бачити» ознаки радикалів у байтових послідовностях. А коли ієрогліф — один токен, ця інформація прихована.Зверніть увагу, що цей висновок — лише для задач, що пов’язані з морфологічною структурою ієрогліфів, і не означає, що зменшення кількості токенів погіршує загальне розуміння мови, логіку або здатність довгого генерування тексту. Також, порівняння GPT-4 і GPT-4o — окремі моделі з різними архітектурами, тренувальними даними і параметрами, тому не можна цілком приписувати зміни у точності лише розбиттю.Це відкриття підтвердили й інженерні дослідження. У 2024 році дослідження GPT-4o показало, що коли модель отримує довгі токени, що об’єднують кілька ієрогліфів у один, вона починає помилятися у розумінні. Якщо ж ці токени розбити на окремі ієрогліфи за допомогою спеціального китайського сегментатора, точність відновлюється.Загалом, у галузі великих моделей поширена думка, що оптимізація під цільову мову — це шлях до підвищення ефективності. Вони зменшують кількість токенів, підвищують корисність контексту, знижують затримки. Але дослідження показують, що детальніше вивчення морфології ієрогліфів і їхнього кодування може дати додаткові переваги у специфічних задачах.Проте, ця деталь — ілюстрація того, що у системах з обмеженими знаннями про внутрішню структуру, існує ризик «загубити» важливі шляхи оптимізації. Unicode, BPE — це рішення, що були зроблені для людського сприйняття і зручності, але у нейромережах вони створюють неочевидні «сліпі» зони.Коли інженери намагаються «покращити» токенізатор, об’єднуючи ієрогліфи у цілі слова, вони одночасно закривають можливість моделі «бачити» внутрішню морфологію. Це — баланс між ефективністю і глибиною розуміння, і він не завжди очевидний.Отже, історія показує: не все, що зроблено для зручності людського сприйняття, автоматично є оптимальним для машинного розуміння. Іноді — навпаки, — саме «загублені» шляхи відкривають нові можливості.**5. ****Лін Юйтан****  -------------Вартість адаптації китайської мови до західної технічної інфраструктури — не почалася з епохи AI.У січні 2025 року мешканець Нью-Йорка Нельсон Фелікс у групі Facebook, присвяченій друкарським машинкам, виклав кілька фотографій. Він знайшов у спадщині своєї дружини дідову друкарську машинку з написами китайською — і не знав, що це за модель. Швидко з’явилися сотні коментарів.********Стівфордський лінгвіст, дослідник Молліней, Томас С. Муллей, одразу впізнав — це «Мінкуай» друкарська машина, створена Лін Юйтаном у 1947 році, єдина у своєму роді, зникла майже 80 років тому. У квітні того ж року Фелікс із дружиною продали її до бібліотеки Стенфордського університету.Мінкуай був створений для вирішення тієї ж проблеми, що й сучасні токенізатори: **як ефективно інтегрувати китайську у західну технічну інфраструктуру**.У 1940-х роках англійські друкарські машини мали 26 літер, кожна — одна клавіша. Китайські ж ієрогліфи — тисячі, і одна клавіша — один ієрогліф неможливо. Тому тоді використовували величезний набір літер, що містив тисячі металевих символів, і друкарі підбирали їх вручну, друкуючи по кілька слів за хвилину.1899 рік, американський місіонер Шевфілд (Devello Z. Sheffield) винайшов першу китайську друкарську машину — фото з Wikipedia  Лін Юйтан витратив 120 тисяч доларів на розробку, майже розорився, і замовив у компанії Карла Крума у Нью-Йорку друкарську машину з 72 клавішами. Вона працювала так: розбивала ієрогліфи на частини за структурою, верхню і нижню, і за допомогою вибору цифрами з’являлися відповідні частини. В середньому — 40-50 символів за хвилину, підтримувала понад 8000 поширених ієрогліфів.(ліворуч) прозора «магічна» скринька — «очко» друкарської машини; (праворуч) внутрішня структура Мінкуай — фото з FacebookЗаява Юйтаня: «**Якщо китайці й американці трохи навчатимуться, вони швидко освоять цю клавіатуру. Це — саме те, що нам потрібно у друкарстві**».Технічно Мінкуай — прорив, але з комерційної точки зору — провал.Коли Юйтан демонстрував її керівникам компанії Реймінгтон, машина зламалася, і інвестори втратили інтерес. Висока вартість і особисті фінансові труднощі Юйтаня призвели до того, що масове виробництво стало неможливим. У 1948 році він продав прототип і права на комерціалізацію компанії Mergenthaler Linotype. Вона відмовилася від масового виробництва, а прототип у 1950-х роках був забутий і зник. Лише у 2025 році він знову з’явився на світ.Молліней у своїй книзі «Китайська друкарська машина» зробив висновок, що Мінкуай «не був провалом». **Як продукт 1940-х років — він не вижив, але як новий тип взаємодії людини і машини — переміг**.**Лін Юйтан вперше зробив китайське «друкування» — «пошук і вибір»**. Три ряди клавіш для пошуку частин ієрогліфів, вибір із кандидатів — це і є основа сучасних китайських методів введення. Від Чжаньє, Віби до пошукових систем — всі вони — нащадки Мінкуай.Ця машина, що пройшла майже 80 років, і сьогоднішні обговорення токенізаторів — мають спільну історичну закономірність: **китайська мова завжди стикалася з однією проблемою:****як інтегрувати її у систему, побудовану на латинському алфавіті**.Цікаво, що у цьому пошуку випадкові збіги і непередбачені рішення — не людський задум, а історичний збіг. Упорядкування Unicode за радикалами і BPE — це рішення, що було зроблено для зручності людського пошуку, але у нейромережах воно створює «сліпі» зони, які можна назвати «невидимими шляхами» для оптимізації.Коли інженери намагаються «покращити» токенізатор, об’єднуючи ієрогліфи у цілі слова, вони одночасно закривають можливість моделі «бачити» внутрішню морфологію. Це — баланс між ефективністю і глибиною розуміння, і він не завжди очевидний.Історія показує: не все, що зроблено для зручності людського сприйняття, є оптимальним для машинного. Іноді — саме «загублені» шляхи відкривають нові можливості.

Штучний інтелект великих моделей «китайський податок»: чому китайська мова вимагає більше токенів ніж англійська?

1. Китайський податок**

2. Скільки шматків може бути у одному ієрогліфі?**

3. Чи справді古文 дешевша?**

4. Фрагменти з радикалами**

5. Лін Юйтан**

Популярні теми

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

Закріпити

Штучний інтелект великих моделей «китайський податок»: чому китайська мова вимагає більше токенів ніж англійська?

**1. Китайський податок

**2. Скільки шматків може бути у одному ієрогліфі?

**3. Чи справді古文 дешевша?

**4. Фрагменти з радикалами

**5. Лін Юйтан

Популярні теми

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

Закріпити

1. Китайський податок**

2. Скільки шматків може бути у одному ієрогліфі?**

3. Чи справді古文 дешевша?**

4. Фрагменти з радикалами**

5. Лін Юйтан**