Ф'ючерси
Сотні безстрокових контрактів
TradFi
Золото
Одна платформа для світових активів
Опціони
Hot
Торгівля ванільними опціонами європейського зразка
Єдиний рахунок
Максимізуйте ефективність вашого капіталу
Демо торгівля
Вступ до ф'ючерсної торгівлі
Підготуйтеся до ф’ючерсної торгівлі
Ф'ючерсні події
Заробляйте, беручи участь в подіях
Демо торгівля
Використовуйте віртуальні кошти для безризикової торгівлі
Запуск
CandyDrop
Збирайте цукерки, щоб заробити аірдропи
Launchpool
Швидкий стейкінг, заробляйте нові токени
HODLer Airdrop
Утримуйте GT і отримуйте масові аірдропи безкоштовно
Pre-IPOs
Отримайте повний доступ до глобальних IPO акцій.
Alpha Поінти
Ончейн-торгівля та аірдропи
Ф'ючерсні бали
Заробляйте фʼючерсні бали та отримуйте аірдроп-винагороди
Інвестиції
Simple Earn
Заробляйте відсотки за допомогою неактивних токенів
Автоінвестування
Автоматичне інвестування на регулярній основі
Подвійні інвестиції
Прибуток від волатильності ринку
Soft Staking
Earn rewards with flexible staking
Криптопозика
0 Fees
Заставте одну криптовалюту, щоб позичити іншу
Центр кредитування
Єдиний центр кредитування
Центр багатства VIP
Преміальні плани зростання капіталу
Управління приватним капіталом
Розподіл преміальних активів
Квантовий фонд
Квантові стратегії найвищого рівня
Стейкінг
Стейкайте криптовалюту, щоб заробляти на продуктах PoS
Розумне кредитне плече
Кредитне плече без ліквідації
Випуск GUSD
Мінтинг GUSD для прибутку RWA
Акції
AI
Gate AI
Ваш універсальний AI-помічник для спілкування
Gate AI Bot
Використовуйте Gate AI безпосередньо у своєму соціальному додатку
GateClaw
Gate Блакитний Лобстер — готовий до використання
Gate for AI Agent
AI-інфраструктура, Gate MCP, Skills і CLI
Gate Skills Hub
Понад 10 000 навичок
Від офісу до трейдингу: універсальна база навичок для ефективнішої роботи з AI
GateRouter
Розумний вибір із понад 40 моделей ШІ, без додаткових витрат (0%)
Штучний інтелект великих моделей «китайський податок»: чому китайська мова вимагає більше токенів ніж англійська?
Автор: Танг Ітао, джерело: Гіккер Парк
Кілька днів після випуску Opus 4.7, у X знову наростала незадоволеність. Хтось казав, що один діалог витратив весь її ліміт сесії, інші — що вартість виконання однієї й тієї ж програми зросла більш ніж удвічі порівняно з минулим тижнем; ще хтось виклав скріншот, де за менше ніж дві години підписки Max на 200 доларів вже досягла ліміту.
Незалежний розробник BridgeMind визнає, що Claude — найкраща модель у світі, але водночас і найдорожча. Його підписка Max не вистачила й двох годин, але на щастя — він купив дві.|джерело зображення: X@bridgemindai
Офіційна ціна Anthropic залишилася незмінною: мільйон вхідних токенів — 5 доларів, вихідних — 25 доларів. Але ця версія ввела новий токенізатор, а Claude Code підвищив рівень зусиль за замовчуванням з high до xhigh. Внаслідок двох змін, кількість токенів, необхідних для однієї й тієї ж роботи, зросла в 2-2,7 рази.
У цих обговореннях я побачив два твердження, що стосуються китайської мови. Одне — що у новому токенізаторі китайська майже не подорожчала, і користувачі, що говорять китайською, уникнули цього підвищення цін. Інше — ще цікавіше: старовинна китайська (古文) споживає менше токенів, ніж сучасна мова, тому спілкування з AI у стилі класичної літератури може зекономити кошти.
Перше твердження натякає, що Claude зробив якусь оптимізацію для китайської, але у документації Anthropic не згадано жодних налаштувань, що стосуються саме китайської мови.
Друге — важче пояснити. Старовинна китайська, очевидно, важча для людського читача, ніж сучасна. Як може бути, що для AI вона легша?
Тому я провів тест, використовуючи 22 паралельних текстових фрагменти (з бізнес-новин, технічних документів,古文, щоденних діалогів тощо), одночасно пропускаючи їх через 5 токенізаторів (Claude 4.6 і 4.7, GPT-4o, Qwen 3.6, DeepSeek-V3), і порівнюючи кількість токенів у кожному фрагменті для кожної моделі.
Тестові тексти:
щоденні діалоги англійською та китайською (подорожі, форуми, прохання допомоги)
технічні документи англійською та китайською (документи Python, документація Anthropic)
новини англійською та китайською (політичні новини NYT, бізнес-новини NYT, офіційні заяви Apple)
літературні уривки англійською та古汉语 (《出师表》《道德经》)
Після аналізу обох тверджень частково підтвердилися, але реальність виявилася складнішою за чутки.
**1. Китайський податок
Спершу — висновки:
На Claude і GPT, китайська завжди дорожча за англійську
На Qwen і DeepSeek — навпаки, дешевша за англійську
Оновлення токенізатора у Opus 4.7, що спричинило коливання цін, майже торкнулося лише англійської, китайська залишилася незмінною
Давайте подивимося на конкретні цифри. У всій лінійці моделей Claude до Opus 4.7 (включно з Opus 4.6, Sonnet, Haiku) використовувався один і той самий токенізатор. За його допомогою, для китайських текстів витрати токенів були вищими за англійські, співвідношення cn/en коливалося від 1.11× до 1.64×.
Найбільш екстремальний випадок — новини у стилі NYT: одна й та сама частина тексту, китайська версія, споживає на 64% більше токенів, тобто коштує на 64% більше.
Opus 4.6 і попередні моделі Claude — китайські токени значно дорожчі за інші (червока рамка)
Найекстремальніший випадок — новини у стилі NYT: одна й та сама частина тексту, китайська версія, споживає на 64% більше токенів (зелена рамка)
GPT-4o з токенізатором o200k — краще, співвідношення cn/en переважно в межах 1.0–1.35×, у деяких випадках нижче 1.0. Загалом, китайська мова залишається дорожчою, але різниця з Claude значно менша.
Дані для внутрішніх моделей Qwen 3.6 і DeepSeek-V3 цілком протилежні. Вони мають широке зниження cn/en — у більшості випадків менше 1, тобто для однакового змісту китайська версія споживає менше токенів, ніж англійська. DeepSeek досягло мінімуму 0.65×, тобто китайський текст у три рази дешевший за англійський.
Новий токенізатор у Opus 4.7, що викликав інфляцію, майже не торкнувся англійської. Кількість англійських токенів зросла в межах 1.24–1.63×, тоді як китайські залишилися майже незмінними — 1.000×. Це пояснює, чому перші англомовні розрахунки були більш схвильовані, а китайські користувачі не відчули особливих змін. Можливо, причина в тому, що у попередніх версіях китайські символи вже були розбиті на одиниці — окремі ієрогліфи, і простір для додаткового розбиття був мінімальним.
Порівняння Opus 4.7 і 4.6 — англійські токени стали більше, китайські — ні
Під час тестування я також помітив одну річ. Різниця у споживанні токенів — це не лише питання рахунків. Вона безпосередньо впливає на розмір робочого простору. За однакової довжини контексту (близько 200 тис. токенів), старий токенізатор Claude для китайських даних дозволяє вмістити менше інформації — на 40–70% менше, ніж англійською.
Для одних і тих самих задач, наприклад, аналізу довгого документа або підсумовування конференційних записів, китайські користувачі можуть подати менше матеріалу, а модель — врахувати менше контексту. В результаті — платять більше, але отримують менший робочий простір.
Об’єднаний аналіз чотирьох наборів даних дає один висновок:
Чому одна й та сама інформація, подана мовою, має різну кількість токенів? Чому у Claude і GPT китайська дорожча, а у Qwen і DeepSeek — дешевша?
Відповідь — у концепції токенізатора (розбиття на токени), про яку я вже згадував.
**2. Скільки шматків може бути у одному ієрогліфі?
Перед тим, як модель починає читати будь-який текст, вона розбиває його на токени за допомогою токенізатора. Можна уявити його як «конструктор блоків» для AI. Ви вводите речення — він розбиває його на стандартні «цеглинки» (токени). Модель не бачить слова, вона бачить їхні номери. Скільки блоків — стільки й платите.
Англійські слова зазвичай розбиті логічно: «intelligence» — один токен, «information» — один токен, кожне слово — окремий платіжний блок.
Але з китайською виникає проблема. Якщо подати одне й те саме речення «人工智能正在重塑全球的信息基础设施» у токенізаторі GPT-4 cl100k і Qwen 2.5, результати будуть дуже різними.
GPT-4 зазвичай розбиває кожен ієрогліф на окремий токен; Qwen ж розглядає цілі слова як один токен, наприклад, «人工智能» — це 4 ієрогліфи, але в Qwen — один токен.
Одна й та сама фраза з 16 ієрогліфів у GPT-4 розбивається на 19 токенів, у Qwen — лише на 6.
Чому так? Вина — у алгоритмі BPE (Byte Pair Encoding).
BPE працює так: аналізує частоту появи комбінацій символів у тренувальному корпусі, і найчастіше з’являються високочастотні пари об’єднує у один токен, додаючи його до словника.
У часи GPT-2 більшість тренувальних даних — англійська. Сполучення літер (th, ing, tion) швидко об’єднуються у токени. Для китайських символів, що зустрічаються дуже рідко, вони не потрапляють до словника і обробляються як байти — кожен ієрогліф займає 3 байти, тобто 3 токени.
BPE об’єднує символи відповідно до їх частоти у корпусі. За домінування англійської, китайські символи у UTF-8 не об’єднуються у цілі слова.
Згодом, у GPT-4 з розширеним словником cl100k, популярні ієрогліфи почали включати у словник, і один ієрогліф тепер зазвичай займає 1–2 токени, але ефективність все ще поступається англійській.
З появою GPT-4o з словником o200k, ефективність китайської ще зросла. Це також пояснює, чому у перших даних співвідношення cn/en у GPT-4o нижче, ніж у Claude.
Qwen і DeepSeek — це внутрішні моделі, що з самого початку включили багато поширених ієрогліфів і фраз у словник як цілі слова. Один ієрогліф — один токен, і це подвоює або навіть потроює ефективність.
Приклади розбиття одного й того ж речення різними токенізаторами
Саме тому їхнє співвідношення cn/en може бути менше 1. Китайські ієрогліфи мають вищу інформаційну щільність, ніж англійські слова, і коли токенізатор не розбиває їх штучно, цей природний перевага проявляється.
Отже, різниця у даних попередніх розрахунків — не у здатностях моделей, а у словниках токенізаторів, що залишили місце для китайської мови.
Claude і ранні GPT будувалися на англійському словнику за замовчуванням, китайські символи додавалися пізніше; Qwen і DeepSeek — з самого початку враховували китайську як основну мову. Ця різниця у стартових налаштуваннях впливає на кількість токенів, рахунки, розмір контексту.
**3. Чи справді古文 дешевша?
Ще раз повернемося до другого чутки: 古文 — дешевша за сучасну мову.
Дані підтвердили цю ідею. У тестах,古文-версії мають співвідношення cn/en менше 1, і на всіх п’яти токенізаторах. Одна й та сама частина тексту у古文 — менша за кількістю токенів, ніж її англійський переклад.
У всіх моделях古文 споживає менше токенів, ніж сучасна китайська, і навіть менше англійської
Причина — у тому, що古文 дуже стисла у виборі слів. «學而不思則罔,思而不學則殆» — 12 ієрогліфів. Переклад сучасною мовою — «просто навчаєшся, але не думаєш — будеш у невіданні; думаєш, але не навчаєшся — у біді», — і кількість слів подвоїться, а токенів — відповідно.
Крім того,常用字 (之、也、者、而、不) — високочастотні символи, що мають окремі позиції у словнику будь-якого токенізатора і не розбиваються на байти. Тому古文 дійсно ефективна у кодуванні.
Але тут є пастка.
Токени古文 — дешеві у кодуванні, але навантаження на модель — ні. «罔» — один ієрогліф, і модель має визначити його значення у контексті: «збентежити», «обдурити» чи «відсутній». Сучасна мова може передати цю ідею 26-ма символами, а古文 — лише одним ієрогліфом, але модель має зробити складне висновок. Це — компресія, що вимагає більше обчислень.
Менше токенів — більше навантаження на розуміння, і точність може знизитися. Це — баланс, який важко підрахувати.
Цей приклад показує, що кількість токенів сама по собі не дає повної картини. Але, розглядаючи цю ідею далі, я зрозумів ще одну важливу річ.
Раніше я згадував, що у GPT-2 токенізатор розбивав слово «人» на три байти у UTF-8, тоді як у GPT-4 словник розширився, і поширені ієрогліфи стали одним токеном, а Qwen — ще більше: «人工智能» — один токен.
Інтуїтивно, це — процес постійного покращення: чим більше об’єднуєш, тим ефективніше. Модель краще розуміє.
Але чи так це насправді? Давайте згадаємо, як ми вивчаємо ієрогліфи.
Ієрогліфи — ідеограми, понад 80% сучасних — складені з радикалів і фонетичних компонентів. «氵» — пов’язаний із рідинами, «木» — із рослинами, «火» — із теплом. Радикали — базові семантичні підказки для розпізнавання ієрогліфів. Людина, що не знає «焱», все одно здогадається, що він пов’язаний із вогнем, побачивши три «火».
Оскільки радикали — основа розпізнавання, люди спершу визначають значення за структурою, а потім — за контекстом.
«火花», «火焰», «光焰» — у писемній мові і іменах, символізують світло і жар.
Але у словнику токенізатора «焱» — це число. Припустимо, 38721 — індекс у словнику. Модель через нього шукає вектор, що репрезентує цей ієрогліф.
Сам номер не містить інформації про внутрішню структуру. 38721 і 38722 — для моделі рівнозначні, як 1 і 10000. Тобто «структура ієрогліфу» — прихована. Три «火» у числовому представленні — відсутні.
Звісно, модель може через тренування навчитися, що «焱», «炎», «灼» часто з’являються у схожих контекстах, але цей шлях — опосередкований.
Чи може модель, розбиваючи ієрогліфи на байти, «бачити» схожі радикальні ознаки і потім у процесі обчислень відновлювати їх? Хоча це — дорожче за кількістю токенів, можливо, у семантичному розумінні такий підхід був би ефективнішим, ніж просто обробляти «невидимий» номер.
У статті, опублікованій у 2025 році у журналі «Computational Linguistics» MIT Press («Tokenization Changes Meaning in Large Language Models: Evidence from Chinese»), дослідники відповіли на це питання.
**4. Фрагменти з радикалами
Автор статті, Девід Хаслетт, помітив історичний збіг.
У 1990-х Unicode-спільнота при розподілі кодів для китайських ієрогліфів у UTF-8 групувала їх за радикалами. Ієрогліфи з одним і тим самим радикалом мали схожий початковий байт у кодуванні. «茶» і «茎» містять радикал «艹» (трава), і їхні байтові послідовності починаються однаково. «河» і «海» — з радикалом «氵», і їхні байти теж співпадають на початку.
UTF-8, згідно з порядком радикалів, класифікує ієрогліфи так, що спільний радикал — спільний перший байт. Це означає, що при розбитті ієрогліфів на три байти, ієрогліфи з одним радикалом матимуть спільний перший токен. У процесі тренування модель багато разів бачить ці спільні байтові шаблони і може навчитися, що «перша частина» у таких токенах — ознака спільної семантики. Це — функціонально схоже на людське визначення значення за радикалами.
Хаслетт провів три експерименти, щоб перевірити цю гіпотезу.
Перший — запитати GPT-4, GPT-4o і Llama 3: «Чи мають «茶» і «茎» спільний радикал?»
Другий — попросити модель оцінити семантичну схожість двох ієрогліфів.
Третій — завдання на пошук «відмінних» ієрогліфів у групі.
Усі три експерименти мали дві змінні: чи справді ієрогліфи мають спільний радикал, і чи у токенізаторі вони поділяються на один і той самий перший токен. Така 2×2 схема дозволила ізолювати ефекти радикалів і вплив розбиття на токени.
Результати — одностайні: коли ієрогліфи розбиваються на кілька токенів (наприклад, у старому GPT-4, 89% ієрогліфів — багатотокенні), модель краще розпізнає спільний радикал; коли ієрогліфи — один токен (у GPT-4o — лише 57%), точність знижується.
Отже, гіпотеза підтвердилася: розбиття ієрогліфів на байти підвищує ймовірність збереження радикальної інформації. Модель навчається «бачити» ознаки радикалів у байтових послідовностях. А коли ієрогліф — один токен, ця інформація прихована.
Зверніть увагу, що цей висновок — лише для задач, що пов’язані з морфологічною структурою ієрогліфів, і не означає, що зменшення кількості токенів погіршує загальне розуміння мови, логіку або здатність довгого генерування тексту. Також, порівняння GPT-4 і GPT-4o — окремі моделі з різними архітектурами, тренувальними даними і параметрами, тому не можна цілком приписувати зміни у точності лише розбиттю.
Це відкриття підтвердили й інженерні дослідження. У 2024 році дослідження GPT-4o показало, що коли модель отримує довгі токени, що об’єднують кілька ієрогліфів у один, вона починає помилятися у розумінні. Якщо ж ці токени розбити на окремі ієрогліфи за допомогою спеціального китайського сегментатора, точність відновлюється.
Загалом, у галузі великих моделей поширена думка, що оптимізація під цільову мову — це шлях до підвищення ефективності. Вони зменшують кількість токенів, підвищують корисність контексту, знижують затримки. Але дослідження показують, що детальніше вивчення морфології ієрогліфів і їхнього кодування може дати додаткові переваги у специфічних задачах.
Проте, ця деталь — ілюстрація того, що у системах з обмеженими знаннями про внутрішню структуру, існує ризик «загубити» важливі шляхи оптимізації. Unicode, BPE — це рішення, що були зроблені для людського сприйняття і зручності, але у нейромережах вони створюють неочевидні «сліпі» зони.
Коли інженери намагаються «покращити» токенізатор, об’єднуючи ієрогліфи у цілі слова, вони одночасно закривають можливість моделі «бачити» внутрішню морфологію. Це — баланс між ефективністю і глибиною розуміння, і він не завжди очевидний.
Отже, історія показує: не все, що зроблено для зручності людського сприйняття, автоматично є оптимальним для машинного розуміння. Іноді — навпаки, — саме «загублені» шляхи відкривають нові можливості.
**5. Лін Юйтан
Вартість адаптації китайської мови до західної технічної інфраструктури — не почалася з епохи AI.
У січні 2025 року мешканець Нью-Йорка Нельсон Фелікс у групі Facebook, присвяченій друкарським машинкам, виклав кілька фотографій. Він знайшов у спадщині своєї дружини дідову друкарську машинку з написами китайською — і не знав, що це за модель. Швидко з’явилися сотні коментарів.
Стівфордський лінгвіст, дослідник Молліней, Томас С. Муллей, одразу впізнав — це «Мінкуай» друкарська машина, створена Лін Юйтаном у 1947 році, єдина у своєму роді, зникла майже 80 років тому. У квітні того ж року Фелікс із дружиною продали її до бібліотеки Стенфордського університету.
Мінкуай був створений для вирішення тієї ж проблеми, що й сучасні токенізатори: як ефективно інтегрувати китайську у західну технічну інфраструктуру.
У 1940-х роках англійські друкарські машини мали 26 літер, кожна — одна клавіша. Китайські ж ієрогліфи — тисячі, і одна клавіша — один ієрогліф неможливо. Тому тоді використовували величезний набір літер, що містив тисячі металевих символів, і друкарі підбирали їх вручну, друкуючи по кілька слів за хвилину.
1899 рік, американський місіонер Шевфілд (Devello Z. Sheffield) винайшов першу китайську друкарську машину — фото з Wikipedia
Лін Юйтан витратив 120 тисяч доларів на розробку, майже розорився, і замовив у компанії Карла Крума у Нью-Йорку друкарську машину з 72 клавішами. Вона працювала так: розбивала ієрогліфи на частини за структурою, верхню і нижню, і за допомогою вибору цифрами з’являлися відповідні частини. В середньому — 40-50 символів за хвилину, підтримувала понад 8000 поширених ієрогліфів.
(ліворуч) прозора «магічна» скринька — «очко» друкарської машини; (праворуч) внутрішня структура Мінкуай — фото з Facebook
Заява Юйтаня: «Якщо китайці й американці трохи навчатимуться, вони швидко освоять цю клавіатуру. Це — саме те, що нам потрібно у друкарстві».
Технічно Мінкуай — прорив, але з комерційної точки зору — провал.
Коли Юйтан демонстрував її керівникам компанії Реймінгтон, машина зламалася, і інвестори втратили інтерес. Висока вартість і особисті фінансові труднощі Юйтаня призвели до того, що масове виробництво стало неможливим. У 1948 році він продав прототип і права на комерціалізацію компанії Mergenthaler Linotype. Вона відмовилася від масового виробництва, а прототип у 1950-х роках був забутий і зник. Лише у 2025 році він знову з’явився на світ.
Молліней у своїй книзі «Китайська друкарська машина» зробив висновок, що Мінкуай «не був провалом». Як продукт 1940-х років — він не вижив, але як новий тип взаємодії людини і машини — переміг.
Лін Юйтан вперше зробив китайське «друкування» — «пошук і вибір». Три ряди клавіш для пошуку частин ієрогліфів, вибір із кандидатів — це і є основа сучасних китайських методів введення. Від Чжаньє, Віби до пошукових систем — всі вони — нащадки Мінкуай.
Ця машина, що пройшла майже 80 років, і сьогоднішні обговорення токенізаторів — мають спільну історичну закономірність: китайська мова завжди стикалася з однією проблемою:
як інтегрувати її у систему, побудовану на латинському алфавіті.
Цікаво, що у цьому пошуку випадкові збіги і непередбачені рішення — не людський задум, а історичний збіг. Упорядкування Unicode за радикалами і BPE — це рішення, що було зроблено для зручності людського пошуку, але у нейромережах воно створює «сліпі» зони, які можна назвати «невидимими шляхами» для оптимізації.
Коли інженери намагаються «покращити» токенізатор, об’єднуючи ієрогліфи у цілі слова, вони одночасно закривають можливість моделі «бачити» внутрішню морфологію. Це — баланс між ефективністю і глибиною розуміння, і він не завжди очевидний.
Історія показує: не все, що зроблено для зручності людського сприйняття, є оптимальним для машинного. Іноді — саме «загублені» шляхи відкривають нові можливості.