Искусственный интеллект крупномасштабных моделей «Китайский налог»: почему китайский язык требует больше токенов, чем английский?

Question

Автор: Тан Янтао, источник: Гик-паркВ первые дни после выпуска Opus 4.7 на платформе X разразились жалобы. Кто-то сказал, что один диалог полностью исчерпал лимит сессии, кто-то — что стоимость выполнения одного и того же кода выросла более чем вдвое по сравнению с прошлой неделей; также появились скриншоты, где за менее чем два часа подписки Max на 200 долларов достигла лимита.Независимый разработчик BridgeMind признал, что Claude — лучшая модель в мире, но одновременно и самая дорогая. Его подписка Max исчерпалась менее чем за два часа, но к счастью — он купил две подписки.｜Источник изображения: X@bridgemindaiОфициальные цены Anthropic остались без изменений: за миллион входных токенов — 5 долларов, за выход — 25 долларов. Но в этой версии введён новый токенизатор, а Claude Code повысил уровень усилий по умолчанию с high до xhigh. В результате двух изменений, количество токенов, расходуемых на одну задачу, увеличилось в 2–2.7 раза по сравнению с прошлым.В этих обсуждениях я заметил два высказывания, связанных с китайским языком. Одно — что при использовании нового токенизатора для китайского почти не выросло, китайские пользователи избежали этого повышения цен. Другие — ещё интереснее: **древний китайский язык тратит на токены меньше, чем современный китайский, и общение с ИИ на классическом стиле позволяет экономить**.Первое утверждение намекает, что Claude каким-то образом оптимизировал работу с китайским, но в документации Anthropic не упоминалось о каких-либо настройках, связанных с китайским.Второе — более сложное для объяснения. Древний китайский, очевидно, сложнее для понимания человека, чем современный. Как же тогда для ИИ он может быть проще?Я решил провести эксперимент: использовал 22 параллельных текста (включая бизнес-новости, техническую документацию, древние тексты, повседневные диалоги и т. д.), одновременно прогнал их через 5 токенизаторов (Claude 4.6 и 4.7, GPT-4o, Qwen 3.6, DeepSeek-V3), зафиксировал количество токенов в каждом случае и сравнил.Тексты для теста:1. Повседневные диалоги на английском и китайском (путешествия, помощь на форумах, запросы на написание)2. Техническая документация на английском и китайском (документы Python, документация Anthropic)3. Новости на английском и китайском (политические новости NYT, бизнес-новости NYT, официальные заявления Apple)4. Литературные отрывки на английском и древнекитайском («出师表», «道德经»)После анализа обе гипотезы подтвердились частично, но ситуация оказалась сложнее, чем предполагалось.I. ****Налог на китайский язык****  -------------Начну с вывода:1. **На Claude и GPT китай всегда дороже английского**2. **На Qwen и DeepSeek — наоборот, дешевле английского**3. **Обновление токенизатора в Opus 4.7 вызвало волну, но инфляция коснулась в основном английского, китай остался практически без изменений**Рассмотрим конкретные цифры. Все модели серии Claude до версии 4.7 (включая Opus 4.6, Sonnet, Haiku) использовали один и тот же токенизатор. В его рамках, китайский текст расходует больше токенов, чем английский при одинаковом содержании, соотношение cn/en — от 1.11× до 1.64×.Самый экстремальный случай — новости в стиле NYT: один и тот же текст на китайском требует на 64% больше токенов, то есть платишь на 64% больше денег.Opus 4.6 и более ранние модели Claude показывают, что расход токенов на китайском значительно выше, чем на других моделях (красная рамка).Самый экстремальный пример — новости NYT: тот же текст на китайском — на 64% больше токенов (зеленая рамка).GPT-4o с токенизатором o200k показывает лучше результаты: соотношение cn/en — в большинстве случаев в диапазоне 1.0–1.35×, в некоторых — ниже 1.0. В целом, китай всё ещё дороже, но разница с Claude — значительно меньше.Данные отечественных моделей Qwen 3.6 и DeepSeek-V3 полностью противоположны: соотношение cn/en — в большинстве случаев ниже 1, что означает, что для одинакового текста китайский требует меньше токенов, чем английский. **DeepSeek достигло минимального значения 0.65×: китайский текст — на треть дешевле английского**.Обновление токенизатора в Opus 4.7 практически не повлияло на китайский: количество английских токенов выросло в 1.24–1.63 раза, а китайский остался практически без изменений — около 1.000×. Поэтому первые английские разработчики заметили колебания в счетах, а китайские пользователи — нет. Вероятно, потому что в старых версиях китайский уже разбит на отдельные символы, и пространства для дальнейшего деления почти не осталось.********Сравнение Opus 4.7 и 4.6: английский расход токенов увеличился, китайский — остался практически без измененийВо время тестирования я заметил ещё одну вещь: разница в расходе токенов — не только вопрос счета, но и напрямую влияет на рабочее пространство. При использовании старого токенизатора для китайских данных, вместимость контекста в 200k — на 40–70% меньше по сравнению с английским.Для одних и тех же задач — например, анализ длинных документов или суммирование собраний — у китайских пользователей материалов для подачи модели меньше, а контекст, который модель может учитывать, короче. Итог — платишь больше, а получаешь меньшую рабочую область.Объединив все четыре набора данных, возникает вопрос:**Почему при смене языка количество токенов меняется? Почему у Claude и GPT китай дороже, а у Qwen и DeepSeek — дешевле?**Ответ — в концепции токенизатора (разделителя слов), о которой я говорил выше.II. ****Сколько частей может содержиться в одном иероглифе?****  ----------------------Перед тем, как модель прочитает любой текст, он разбивается на токены с помощью токенизатора. Его можно представить как «конструктор блоков» для ИИ. Вы вводите предложение — он разбивает его на стандартные блоки (токены). Модель не воспринимает текст как таковой, а оперирует номерами блоков. Чем больше блоков — тем дороже.Для английского это очевидно: например, «intelligence» — один токен, «information» — один токен, то есть один и тот же словесный блок — одна единица оплаты.Но с китайским всё усложняется. Если ввести фразу «人工智能正在重塑全球的信息基础设施» в два разных токенизатора — GPT-4 с cl100k и Qwen 2.5 — результат будет разным.GPT-4 разбивает каждую иероглиф на отдельный токен; Qwen же распознаёт слова как один токен, например, «人工智能» — один токен.********Одна и та же фраза из 16 иероглифов — GPT-4 выдаст 19 токенов, Qwen — всего 6.Почему так происходит? Всё дело в алгоритме BPE (Byte Pair Encoding).BPE работает так: он подсчитывает, какие сочетания символов встречаются чаще всего в обучающем корпусе, и объединяет их в один токен, добавляя в словарь.В эпоху GPT-2 большинство данных было на английском. Там часто встречаются сочетания букв (th, ing, tion), которые быстро объединяются в один токен. В китайском корпусе такие сочетания встречаются очень редко, и каждый иероглиф — это по сути 3 байта, то есть 3 токена.BPE объединяет по частоте появления символов в корпусе. В английском корпусе — это эффективно, в китайском — нет.Позже, в GPT-4 с расширенным словарём cl100k, многие часто используемые иероглифы попали в словарь, и один иероглиф стал занимать 1–2 токена. Но всё равно эффективность уступает английскому.В GPT-4o с словарём o200k китайская эффективность выросла ещё больше. Это объясняет, почему в данных выше соотношение cn/en у GPT-4o ниже, чем у Claude.Отечественные модели Qwen и DeepSeek с самого начала включили в словарь множество часто используемых иероглифов и словосочетаний, как целых слов или символов. Один иероглиф — один токен, эффективность увеличилась в разы.Иллюстрация разбиения одного и того же предложения в разных токенизаторахЭто — причина, почему их соотношение cn/en ниже 1: смысл китайских иероглифов изначально более насыщен информацией, и когда токенизатор перестает разбивать их на части, это преимущество проявляется.Следовательно, различия в данных из предыдущего раздела обусловлены не способностями моделей, а тем, сколько места в словаре отведено для китайского.Ранние модели Claude и GPT строились на английском по умолчанию, китай добавлялся позже; Qwen и DeepSeek — изначально рассматривали китай как основной язык. Этот стартовой разницы достаточно, чтобы влиять на число токенов, счета и размер контекстных окон.III. ****Правда ли, что древний китайский дешевле?****  -------------------Вернёмся к второму слуху: **древний китайский тратит меньше токенов, чем современный**.Данные подтверждают: в тестах соотношение cn/en для древних текстов — ниже 1 во всех случаях, на всех пяти токенизаторах. Одна и та же часть текста в древней версии требует меньше токенов, чем перевод на современный язык.Во всех моделях, древний китайский — менее затратный по токенам, чем современный, и даже — чем английский.Причина — в высокой сжатости древних текстов: «学而不思则罔，思而不学则殆» — всего 12 иероглифов. Перевод на современный язык — «Только учиться, не размышляя, — запутаешься; только размышлять, не учась — в опасности», — и слов становится вдвое больше, а токенов — тоже.Кроме того, часто используемые иероглифы (之、也、者、而、不) — высокочастотные символы, которые есть в любом словаре токенизатора и не разбиваются на байты. Поэтому в кодировании древний китайский действительно эффективен.Но есть ловушка:  **Экономия токенов в древних текстах — на уровне кодирования, а не в вычислительных затратах модели**. «罔» — один иероглиф, и модель должна определить его значение в контексте: «запутанность», «обман», «отсутствие»? На современном языке можно выразить это 26 символами, а в древнем — всё равно, что свернуть часть текста назад, оставив работу по интерпретации модели. Проще говоря, сжатие — уменьшает размер файла, но требует больше вычислений при распаковке.**Меньше токенов — больше затрат на вычисление, а точность понимания — ниже**. Это сложно подсчитать.Данный пример показывает, что количество токенов — не всё. Но, продолжая в том же духе, есть ещё один важный аспект.Ранее говорилось, что в эпоху GPT-2 токенизатор разбивал слово «人» на три байта UTF-8, а в GPT-4 словарь расширился, и часто используемые иероглифы стали одним токеном, а Qwen — ещё дальше: «人工智能» — один токен.Интуитивно — это прогресс: чем больше объединений, тем выше эффективность, и модель должна лучше понимать.Но так ли это? Вспомним, как мы воспринимаем китайские иероглифы.Китайские иероглифы — пиктограммы, более 80% — это иероглифы с фонетической и смысловой составляющей. Например, «氵» — связанный с жидкостями, «木» — с растениями, «火» — с теплом. **Палочки и компоненты — базовые семантические подсказки для человека при чтении. Кто не знает «焱», увидев три «火», поймёт, что речь о огне.**Поскольку компоненты — это базовые смысловые подсказки, человек сначала определяет смысл по структуре, а затем — по контексту.********Пламя, огонь, свет — часто встречаются в письменной речи и именах, символизируют свет, жар.Но в словаре токенизатора «焱» — это число. Предположим, что это 38721, — это индекс в словаре, по которому модель ищет вектор. Вектор — это набор чисел, который представляет «焱».Сам номер ничего не говорит о внутренней структуре этого иероглифа. 38721 и 38722 — для модели как 1 и 10000. Таким образом, «структура» иероглифа — скрыта внутри номера. Три «火» в сложении — в номере не отражается.Модель, конечно, может научиться на большом объёме данных, что «焱», «炎», «灼» часто встречаются в похожих контекстах, но это — косвенно, через ассоциации.Может ли модель «видеть» в байтах, разбитых на части, какие-то подсказки о структуре, например, о компонентах? И сможет ли она, в последующих слоях, переиспользовать эти подсказки для понимания? Хотя это — более дорого и сложно, — может ли такой подход оказаться более эффективным для семантического понимания, чем просто обработка неразборного номера?В статье, опубликованной в 2025 году в журнале «Computational Linguistics» издательства MIT Press («Tokenization Changes Meaning in Large Language Models: Evidence from Chinese»), этот вопрос рассмотрен.IV. ****Вырезая компоненты, восстанавливать подсказки****  ----------------------Автор статьи, Дэвид Хаслетт, заметил исторический парадокс.В 1990-х Unicode-альянс при распределении кодов UTF-8 для китайских иероглифов сортировал их по радикалам. Иероглифы с одним и тем же радикалом — имели близкие к друг другу коды. Например, «茶» и «茎» — оба содержат «艹» (травяной радикал), их байтовые последовательности начинались одинаково. «河» и «海» — оба содержат «氵», и их байты тоже начинались одинаково.********UTF-8 сортирует китайские иероглифы по радикалам, и иероглифы с одинаковым радикалом — по близости кодов｜Источник: GithubЭто означает, что при разбиении иероглифов на три байта токенов, иероглифы с одним радикалом делят первый токен. В процессе обучения модель многократно сталкивается с такими общими байтовыми паттернами и, возможно, учится делать вывод, что «если первые токены совпадают — значит, смысловые связи есть». Это — очень похоже на человеческий способ определения смысла по компонентам.Хаслетт провёл три эксперимента, чтобы проверить это.Первый — спросил GPT-4, GPT-4o и Llama 3: **«Содержат ли «茶» и «茎» одинаковый радикал»?**Второй — попросил модель оценить семантическую схожесть двух иероглифов.Третий — задал задачу «найти отличия» и исключить лишний иероглиф.Каждый эксперимент был построен по двум переменным: действительно ли иероглифы делят радикал, и делят ли они первый токен при разбиении. Такой дизайн позволил отделить эффект радикала и эффект разбиения на токены.Результаты всех трёх экспериментов совпали: когда иероглифы разбиваются на **несколько токенов** (например, в старом токенизаторе GPT-4 — 89% иероглифов — многотокенные), — **модель лучше распознаёт общие радикалы**; при этом, когда иероглифы кодируются как **один токен** (новый токенизатор GPT-4o — только 57% — многотокенных), — точность снижается.Другими словами, гипотеза подтвердилась. **Разделение иероглифов на байты — более дорого, но сохраняет признаки радикалов, и модель действительно учится их распознавать**. А при кодировании целым иероглифом — стоимость снижается, но признаки радикалов исчезают, и модель не может их использовать.Важно подчеркнуть, что это — только для задач, связанных с морфологией иероглифов, и не означает, что снижается общее понимание китайского, логика или способность генерировать длинные тексты. Также, сравниваемые модели — GPT-4 и GPT-4o — отличаются не только разными токенизаторами, но и архитектурой, обучающими данными, параметрами, — и нельзя полностью свести изменения точности к разнице в разбиении.Это подтверждается и инженерными исследованиями. В 2024 году было обнаружено, что у GPT-4o, когда модель сталкивалась с длинными иероглифами, объединёнными в один токен, понимание ухудшалось. После того, как их разбили на отдельные слова с помощью профессионального китайского сегментатора, понимание восстанавливалось.На сегодняшний день в индустрии больших моделей преобладает мнение, что **использование оптимизированных для языка целых слов или иероглифов токенизаторов — значительно повышает эффективность модели**. Они позволяют снизить стоимость токенов, увеличить объём информации в контексте, уменьшить длину последовательности, снизить задержки при выводе и повысить стабильность при работе с длинными текстами. Преимущества, выявленные в статье, не охватывают большинство практических сценариев обработки китайского языка.Но эта тема показывает одну из самых сложных проблем больших систем: **вы можете оптимизировать ту часть, которую знаете, а ту — не знаете, потому что не знаете, что у вас есть**. Кодирование по радикалам, сделанное для удобства поиска, и разбиение по байтам — изначально не связанные решения, случайно сформировали канал передачи смысловой информации, который никто не планировал.Когда инженеры начинают «улучшать» токенизаторы, объединяя иероглифы в целые символы, — они одновременно закрывают себе доступ к этой скрытой, неосознанной возможности. Эффективность растёт, стоимость снижается, а некоторые важные нюансы исчезают — и зачастую даже без ошибок или предупреждений.Поэтому ситуация сложнее, чем просто «китайский стоит дороже». **Каждый токенизатор оптимизирован под свои исходные предположения, и цена скрыта в другом месте**.V. ****Лин Ютань****  -------------Стоимость адаптации китайского к западной инфраструктуре — не новость, она началась задолго до эпохи ИИ.В январе 2025 года житель Нью-Йорка Нельсон Феликс разместил в группе Facebook фотографию старой пишущей машинки с китайской надписью. Он нашёл у своей жены унаследованный экземпляр, не зная его происхождения. Вскоре появилось сотни комментариев.********Лингвист из Стэнфордского университета Моллэйн (Thomas S. Mullaney) сразу узнал — это «Минг-куай» (明快打字机), единственный прототип, созданный Лин Ютанем в 1947 году, пропавший почти 80 лет назад. В апреле того же года Феликс продал его в библиотеку Стэнфорда.Проблема, которую решала эта машина, — очень похожа на задачу токенизаторов сегодня: **как эффективно встроить китайский язык в инфраструктуру, созданную для западных языков**.В 1940-х годах английская пишущая машинка имела 26 клавиш, по одной букве — всё просто. А у китайских — тысячи иероглифов, и один клик — не вариант. Тогда использовался огромный набор металлических литер, — набор из нескольких тысяч символов, которые набирал оператор, выбирая по одному. В минуту он мог напечатать лишь около 10-15 символов.В 1899 году американский миссионер Шеффилд (Devello Z. Sheffield) изобрёл первую китайскую пишущую машинку — фото в источнике.Лин Ютань вложил 120 тысяч долларов в разработку, почти разорился, и заказал у компании Carl E. Krum в Нью-Йорке китайскую машинку с 72 клавишами. Она работала так: разбивала иероглиф на компоненты по структуре, выбирал верхнюю или нижнюю часть компонента с помощью специальных клавиш, а в окошке показывались варианты, из которых выбирал цифрой. Скорость — 40–50 символов в минуту, поддерживала более 8000 часто используемых символов.(слева) прозрачное окно — «магический глаз»; (справа) внутреннее устройство «Минг-куай»｜Источник: FacebookЦюань Юаньжэнь (赵元任) оценил: «**И китайцы, и американцы, — достаточно быстро освоят эту клавиатуру. Я считаю, что это именно то, что нам нужно**».  Технически «Минг-куай» — прорыв, но коммерчески он провалился.Когда Ютань показывал устройство руководству Remington, оно сломалось, инвесторы потеряли интерес, а из-за высокой стоимости и личных финансовых проблем он не смог запустить массовое производство. В 1948 году он продал прототип и права на него компании Mergenthaler Linotype. В 1950-х годах, при переезде компании, прототип исчез, и только в 2025 году он вновь появился.Моллэйн в книге «Китайская пишущая машинка» делает вывод: «**Минг-куай» — не провалился.**» — как продукт 1940-х он был неудачен, но как человеко-машинный интерфейс — победил.**Лин Ютань впервые превратил китайский «набор текста» в «поиск и выбор»**. Три ряда клавиш — для выбора компонентов, из которых выбирается иероглиф. Это — основа всех современных методов ввода китайского: от Цзянь, Вэньби до Согого пиньиня.Эта машина, прошедшая почти 80 лет, и сегодня — в глубине своей идеи — связана с обсуждаемыми нами токенизаторами. **Китайский язык всегда сталкивается с одной и той же проблемой:****как подключить его к инфраструктуре, основанной на латинском алфавите**.Интересно, что в этом поиске много случайных совпадений. Сортировка Unicode, сделанная для удобства поиска, и разбиение байтов по BPE — случайные решения, которые, оказавшись внутри нейросетей, вдруг начали воспроизводить процесс обучения чтению иероглифов. А когда инженеры «улучшают» токенизаторы, объединяя иероглифы в целые символы, — они одновременно закрывают себе доступ к этой скрытой, неосознанной возможности. Эффективность растёт, а цена — исчезает, и даже не возникает ошибок или предупреждений.Итак, ситуация сложнее, чем просто «китайский стоит дороже». **Каждый токенизатор оптимизирован под свои предположения, и цена — скрыта в другом месте**.**Конец перевода.**

Искусственный интеллект крупномасштабных моделей «Китайский налог»: почему китайский язык требует больше токенов, чем английский?

I. Налог на китайский язык

II. Сколько частей может содержиться в одном иероглифе?

III. Правда ли, что древний китайский дешевле?

IV. Вырезая компоненты, восстанавливать подсказки

V. Лин Ютань

Популярные темы

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

Закрепить