Фьючерсы
Доступ к сотням фьючерсов
TradFi
Золото
Одна платформа мировых активов
Опционы
Hot
Торги опционами Vanilla в европейском стиле
Единый счет
Увеличьте эффективность вашего капитала
Демо-торговля
Введение в торговлю фьючерсами
Подготовьтесь к торговле фьючерсами
Фьючерсные события
Получайте награды в событиях
Демо-торговля
Используйте виртуальные средства для торговли без риска
Запуск
CandyDrop
Собирайте конфеты, чтобы заработать аирдропы
Launchpool
Быстрый стейкинг, заработайте потенциальные новые токены
HODLer Airdrop
Удерживайте GT и получайте огромные аирдропы бесплатно
Pre-IPOs
Откройте полный доступ к глобальным IPO акций
Alpha Points
Торгуйте и получайте аирдропы
Фьючерсные баллы
Зарабатывайте баллы и получайте награды аирдропа
Инвестиции
Simple Earn
Зарабатывайте проценты с помощью неиспользуемых токенов
Автоинвест.
Автоинвестиции на регулярной основе.
Бивалютные инвестиции
Доход от волатильности рынка
Мягкий стейкинг
Получайте вознаграждения с помощью гибкого стейкинга
Криптозаймы
0 Fees
Заложите одну криптовалюту, чтобы занять другую
Центр кредитования
Единый центр кредитования
Рекламные акции
AI
Gate AI
Ваш универсальный AI-ассистент для любых задач
Gate AI Bot
Используйте Gate AI прямо в вашем социальном приложении
GateClaw
Gate Синий Лобстер — готов к использованию
Gate for AI Agent
AI-инфраструктура: Gate MCP, Skills и CLI
Gate Skills Hub
Более 10 тыс навыков
От офиса до трейдинга: единая база навыков для эффективного использования ИИ
GateRouter
Умный выбор из более чем 40 моделей ИИ, без дополнительных затрат (0%)
Искусственный интеллект крупномасштабных моделей «Китайский налог»: почему китайский язык требует больше токенов, чем английский?
Автор: Тан Янтао, источник: Гик-парк
В первые дни после выпуска Opus 4.7 на платформе X разразились жалобы. Кто-то сказал, что один диалог полностью исчерпал лимит сессии, кто-то — что стоимость выполнения одного и того же кода выросла более чем вдвое по сравнению с прошлой неделей; также появились скриншоты, где за менее чем два часа подписки Max на 200 долларов достигла лимита.
Независимый разработчик BridgeMind признал, что Claude — лучшая модель в мире, но одновременно и самая дорогая. Его подписка Max исчерпалась менее чем за два часа, но к счастью — он купил две подписки.|Источник изображения: X@bridgemindai
Официальные цены Anthropic остались без изменений: за миллион входных токенов — 5 долларов, за выход — 25 долларов. Но в этой версии введён новый токенизатор, а Claude Code повысил уровень усилий по умолчанию с high до xhigh. В результате двух изменений, количество токенов, расходуемых на одну задачу, увеличилось в 2–2.7 раза по сравнению с прошлым.
В этих обсуждениях я заметил два высказывания, связанных с китайским языком. Одно — что при использовании нового токенизатора для китайского почти не выросло, китайские пользователи избежали этого повышения цен. Другие — ещё интереснее: древний китайский язык тратит на токены меньше, чем современный китайский, и общение с ИИ на классическом стиле позволяет экономить.
Первое утверждение намекает, что Claude каким-то образом оптимизировал работу с китайским, но в документации Anthropic не упоминалось о каких-либо настройках, связанных с китайским.
Второе — более сложное для объяснения. Древний китайский, очевидно, сложнее для понимания человека, чем современный. Как же тогда для ИИ он может быть проще?
Я решил провести эксперимент: использовал 22 параллельных текста (включая бизнес-новости, техническую документацию, древние тексты, повседневные диалоги и т. д.), одновременно прогнал их через 5 токенизаторов (Claude 4.6 и 4.7, GPT-4o, Qwen 3.6, DeepSeek-V3), зафиксировал количество токенов в каждом случае и сравнил.
Тексты для теста:
Повседневные диалоги на английском и китайском (путешествия, помощь на форумах, запросы на написание)
Техническая документация на английском и китайском (документы Python, документация Anthropic)
Новости на английском и китайском (политические новости NYT, бизнес-новости NYT, официальные заявления Apple)
Литературные отрывки на английском и древнекитайском («出师表», «道德经»)
После анализа обе гипотезы подтвердились частично, но ситуация оказалась сложнее, чем предполагалось.
I. Налог на китайский язык
Начну с вывода:
На Claude и GPT китай всегда дороже английского
На Qwen и DeepSeek — наоборот, дешевле английского
Обновление токенизатора в Opus 4.7 вызвало волну, но инфляция коснулась в основном английского, китай остался практически без изменений
Рассмотрим конкретные цифры. Все модели серии Claude до версии 4.7 (включая Opus 4.6, Sonnet, Haiku) использовали один и тот же токенизатор. В его рамках, китайский текст расходует больше токенов, чем английский при одинаковом содержании, соотношение cn/en — от 1.11× до 1.64×.
Самый экстремальный случай — новости в стиле NYT: один и тот же текст на китайском требует на 64% больше токенов, то есть платишь на 64% больше денег.
Opus 4.6 и более ранние модели Claude показывают, что расход токенов на китайском значительно выше, чем на других моделях (красная рамка).
Самый экстремальный пример — новости NYT: тот же текст на китайском — на 64% больше токенов (зеленая рамка).
GPT-4o с токенизатором o200k показывает лучше результаты: соотношение cn/en — в большинстве случаев в диапазоне 1.0–1.35×, в некоторых — ниже 1.0. В целом, китай всё ещё дороже, но разница с Claude — значительно меньше.
Данные отечественных моделей Qwen 3.6 и DeepSeek-V3 полностью противоположны: соотношение cn/en — в большинстве случаев ниже 1, что означает, что для одинакового текста китайский требует меньше токенов, чем английский. DeepSeek достигло минимального значения 0.65×: китайский текст — на треть дешевле английского.
Обновление токенизатора в Opus 4.7 практически не повлияло на китайский: количество английских токенов выросло в 1.24–1.63 раза, а китайский остался практически без изменений — около 1.000×. Поэтому первые английские разработчики заметили колебания в счетах, а китайские пользователи — нет. Вероятно, потому что в старых версиях китайский уже разбит на отдельные символы, и пространства для дальнейшего деления почти не осталось.
Сравнение Opus 4.7 и 4.6: английский расход токенов увеличился, китайский — остался практически без изменений
Во время тестирования я заметил ещё одну вещь: разница в расходе токенов — не только вопрос счета, но и напрямую влияет на рабочее пространство. При использовании старого токенизатора для китайских данных, вместимость контекста в 200k — на 40–70% меньше по сравнению с английским.
Для одних и тех же задач — например, анализ длинных документов или суммирование собраний — у китайских пользователей материалов для подачи модели меньше, а контекст, который модель может учитывать, короче. Итог — платишь больше, а получаешь меньшую рабочую область.
Объединив все четыре набора данных, возникает вопрос:
Почему при смене языка количество токенов меняется? Почему у Claude и GPT китай дороже, а у Qwen и DeepSeek — дешевле?
Ответ — в концепции токенизатора (разделителя слов), о которой я говорил выше.
II. Сколько частей может содержиться в одном иероглифе?
Перед тем, как модель прочитает любой текст, он разбивается на токены с помощью токенизатора. Его можно представить как «конструктор блоков» для ИИ. Вы вводите предложение — он разбивает его на стандартные блоки (токены). Модель не воспринимает текст как таковой, а оперирует номерами блоков. Чем больше блоков — тем дороже.
Для английского это очевидно: например, «intelligence» — один токен, «information» — один токен, то есть один и тот же словесный блок — одна единица оплаты.
Но с китайским всё усложняется. Если ввести фразу «人工智能正在重塑全球的信息基础设施» в два разных токенизатора — GPT-4 с cl100k и Qwen 2.5 — результат будет разным.
GPT-4 разбивает каждую иероглиф на отдельный токен; Qwen же распознаёт слова как один токен, например, «人工智能» — один токен.
Одна и та же фраза из 16 иероглифов — GPT-4 выдаст 19 токенов, Qwen — всего 6.
Почему так происходит? Всё дело в алгоритме BPE (Byte Pair Encoding).
BPE работает так: он подсчитывает, какие сочетания символов встречаются чаще всего в обучающем корпусе, и объединяет их в один токен, добавляя в словарь.
В эпоху GPT-2 большинство данных было на английском. Там часто встречаются сочетания букв (th, ing, tion), которые быстро объединяются в один токен. В китайском корпусе такие сочетания встречаются очень редко, и каждый иероглиф — это по сути 3 байта, то есть 3 токена.
BPE объединяет по частоте появления символов в корпусе. В английском корпусе — это эффективно, в китайском — нет.
Позже, в GPT-4 с расширенным словарём cl100k, многие часто используемые иероглифы попали в словарь, и один иероглиф стал занимать 1–2 токена. Но всё равно эффективность уступает английскому.
В GPT-4o с словарём o200k китайская эффективность выросла ещё больше. Это объясняет, почему в данных выше соотношение cn/en у GPT-4o ниже, чем у Claude.
Отечественные модели Qwen и DeepSeek с самого начала включили в словарь множество часто используемых иероглифов и словосочетаний, как целых слов или символов. Один иероглиф — один токен, эффективность увеличилась в разы.
Иллюстрация разбиения одного и того же предложения в разных токенизаторах
Это — причина, почему их соотношение cn/en ниже 1: смысл китайских иероглифов изначально более насыщен информацией, и когда токенизатор перестает разбивать их на части, это преимущество проявляется.
Следовательно, различия в данных из предыдущего раздела обусловлены не способностями моделей, а тем, сколько места в словаре отведено для китайского.
Ранние модели Claude и GPT строились на английском по умолчанию, китай добавлялся позже; Qwen и DeepSeek — изначально рассматривали китай как основной язык. Этот стартовой разницы достаточно, чтобы влиять на число токенов, счета и размер контекстных окон.
III. Правда ли, что древний китайский дешевле?
Вернёмся к второму слуху: древний китайский тратит меньше токенов, чем современный.
Данные подтверждают: в тестах соотношение cn/en для древних текстов — ниже 1 во всех случаях, на всех пяти токенизаторах. Одна и та же часть текста в древней версии требует меньше токенов, чем перевод на современный язык.
Во всех моделях, древний китайский — менее затратный по токенам, чем современный, и даже — чем английский.
Причина — в высокой сжатости древних текстов: «学而不思则罔,思而不学则殆» — всего 12 иероглифов. Перевод на современный язык — «Только учиться, не размышляя, — запутаешься; только размышлять, не учась — в опасности», — и слов становится вдвое больше, а токенов — тоже.
Кроме того, часто используемые иероглифы (之、也、者、而、不) — высокочастотные символы, которые есть в любом словаре токенизатора и не разбиваются на байты. Поэтому в кодировании древний китайский действительно эффективен.
Но есть ловушка:
Экономия токенов в древних текстах — на уровне кодирования, а не в вычислительных затратах модели. «罔» — один иероглиф, и модель должна определить его значение в контексте: «запутанность», «обман», «отсутствие»? На современном языке можно выразить это 26 символами, а в древнем — всё равно, что свернуть часть текста назад, оставив работу по интерпретации модели. Проще говоря, сжатие — уменьшает размер файла, но требует больше вычислений при распаковке.
Меньше токенов — больше затрат на вычисление, а точность понимания — ниже. Это сложно подсчитать.
Данный пример показывает, что количество токенов — не всё. Но, продолжая в том же духе, есть ещё один важный аспект.
Ранее говорилось, что в эпоху GPT-2 токенизатор разбивал слово «人» на три байта UTF-8, а в GPT-4 словарь расширился, и часто используемые иероглифы стали одним токеном, а Qwen — ещё дальше: «人工智能» — один токен.
Интуитивно — это прогресс: чем больше объединений, тем выше эффективность, и модель должна лучше понимать.
Но так ли это? Вспомним, как мы воспринимаем китайские иероглифы.
Китайские иероглифы — пиктограммы, более 80% — это иероглифы с фонетической и смысловой составляющей. Например, «氵» — связанный с жидкостями, «木» — с растениями, «火» — с теплом. Палочки и компоненты — базовые семантические подсказки для человека при чтении. Кто не знает «焱», увидев три «火», поймёт, что речь о огне.
Поскольку компоненты — это базовые смысловые подсказки, человек сначала определяет смысл по структуре, а затем — по контексту.
Пламя, огонь, свет — часто встречаются в письменной речи и именах, символизируют свет, жар.
Но в словаре токенизатора «焱» — это число. Предположим, что это 38721, — это индекс в словаре, по которому модель ищет вектор. Вектор — это набор чисел, который представляет «焱».
Сам номер ничего не говорит о внутренней структуре этого иероглифа. 38721 и 38722 — для модели как 1 и 10000. Таким образом, «структура» иероглифа — скрыта внутри номера. Три «火» в сложении — в номере не отражается.
Модель, конечно, может научиться на большом объёме данных, что «焱», «炎», «灼» часто встречаются в похожих контекстах, но это — косвенно, через ассоциации.
Может ли модель «видеть» в байтах, разбитых на части, какие-то подсказки о структуре, например, о компонентах? И сможет ли она, в последующих слоях, переиспользовать эти подсказки для понимания? Хотя это — более дорого и сложно, — может ли такой подход оказаться более эффективным для семантического понимания, чем просто обработка неразборного номера?
В статье, опубликованной в 2025 году в журнале «Computational Linguistics» издательства MIT Press («Tokenization Changes Meaning in Large Language Models: Evidence from Chinese»), этот вопрос рассмотрен.
IV. Вырезая компоненты, восстанавливать подсказки
Автор статьи, Дэвид Хаслетт, заметил исторический парадокс.
В 1990-х Unicode-альянс при распределении кодов UTF-8 для китайских иероглифов сортировал их по радикалам. Иероглифы с одним и тем же радикалом — имели близкие к друг другу коды. Например, «茶» и «茎» — оба содержат «艹» (травяной радикал), их байтовые последовательности начинались одинаково. «河» и «海» — оба содержат «氵», и их байты тоже начинались одинаково.
UTF-8 сортирует китайские иероглифы по радикалам, и иероглифы с одинаковым радикалом — по близости кодов|Источник: Github
Это означает, что при разбиении иероглифов на три байта токенов, иероглифы с одним радикалом делят первый токен. В процессе обучения модель многократно сталкивается с такими общими байтовыми паттернами и, возможно, учится делать вывод, что «если первые токены совпадают — значит, смысловые связи есть». Это — очень похоже на человеческий способ определения смысла по компонентам.
Хаслетт провёл три эксперимента, чтобы проверить это.
Первый — спросил GPT-4, GPT-4o и Llama 3: «Содержат ли «茶» и «茎» одинаковый радикал»?
Второй — попросил модель оценить семантическую схожесть двух иероглифов.
Третий — задал задачу «найти отличия» и исключить лишний иероглиф.
Каждый эксперимент был построен по двум переменным: действительно ли иероглифы делят радикал, и делят ли они первый токен при разбиении. Такой дизайн позволил отделить эффект радикала и эффект разбиения на токены.
Результаты всех трёх экспериментов совпали: когда иероглифы разбиваются на несколько токенов (например, в старом токенизаторе GPT-4 — 89% иероглифов — многотокенные), — модель лучше распознаёт общие радикалы; при этом, когда иероглифы кодируются как один токен (новый токенизатор GPT-4o — только 57% — многотокенных), — точность снижается.
Другими словами, гипотеза подтвердилась. Разделение иероглифов на байты — более дорого, но сохраняет признаки радикалов, и модель действительно учится их распознавать. А при кодировании целым иероглифом — стоимость снижается, но признаки радикалов исчезают, и модель не может их использовать.
Важно подчеркнуть, что это — только для задач, связанных с морфологией иероглифов, и не означает, что снижается общее понимание китайского, логика или способность генерировать длинные тексты. Также, сравниваемые модели — GPT-4 и GPT-4o — отличаются не только разными токенизаторами, но и архитектурой, обучающими данными, параметрами, — и нельзя полностью свести изменения точности к разнице в разбиении.
Это подтверждается и инженерными исследованиями. В 2024 году было обнаружено, что у GPT-4o, когда модель сталкивалась с длинными иероглифами, объединёнными в один токен, понимание ухудшалось. После того, как их разбили на отдельные слова с помощью профессионального китайского сегментатора, понимание восстанавливалось.
На сегодняшний день в индустрии больших моделей преобладает мнение, что использование оптимизированных для языка целых слов или иероглифов токенизаторов — значительно повышает эффективность модели. Они позволяют снизить стоимость токенов, увеличить объём информации в контексте, уменьшить длину последовательности, снизить задержки при выводе и повысить стабильность при работе с длинными текстами. Преимущества, выявленные в статье, не охватывают большинство практических сценариев обработки китайского языка.
Но эта тема показывает одну из самых сложных проблем больших систем: вы можете оптимизировать ту часть, которую знаете, а ту — не знаете, потому что не знаете, что у вас есть. Кодирование по радикалам, сделанное для удобства поиска, и разбиение по байтам — изначально не связанные решения, случайно сформировали канал передачи смысловой информации, который никто не планировал.
Когда инженеры начинают «улучшать» токенизаторы, объединяя иероглифы в целые символы, — они одновременно закрывают себе доступ к этой скрытой, неосознанной возможности. Эффективность растёт, стоимость снижается, а некоторые важные нюансы исчезают — и зачастую даже без ошибок или предупреждений.
Поэтому ситуация сложнее, чем просто «китайский стоит дороже». Каждый токенизатор оптимизирован под свои исходные предположения, и цена скрыта в другом месте.
V. Лин Ютань
Стоимость адаптации китайского к западной инфраструктуре — не новость, она началась задолго до эпохи ИИ.
В январе 2025 года житель Нью-Йорка Нельсон Феликс разместил в группе Facebook фотографию старой пишущей машинки с китайской надписью. Он нашёл у своей жены унаследованный экземпляр, не зная его происхождения. Вскоре появилось сотни комментариев.
Лингвист из Стэнфордского университета Моллэйн (Thomas S. Mullaney) сразу узнал — это «Минг-куай» (明快打字机), единственный прототип, созданный Лин Ютанем в 1947 году, пропавший почти 80 лет назад. В апреле того же года Феликс продал его в библиотеку Стэнфорда.
Проблема, которую решала эта машина, — очень похожа на задачу токенизаторов сегодня: как эффективно встроить китайский язык в инфраструктуру, созданную для западных языков.
В 1940-х годах английская пишущая машинка имела 26 клавиш, по одной букве — всё просто. А у китайских — тысячи иероглифов, и один клик — не вариант. Тогда использовался огромный набор металлических литер, — набор из нескольких тысяч символов, которые набирал оператор, выбирая по одному. В минуту он мог напечатать лишь около 10-15 символов.
В 1899 году американский миссионер Шеффилд (Devello Z. Sheffield) изобрёл первую китайскую пишущую машинку — фото в источнике.
Лин Ютань вложил 120 тысяч долларов в разработку, почти разорился, и заказал у компании Carl E. Krum в Нью-Йорке китайскую машинку с 72 клавишами. Она работала так: разбивала иероглиф на компоненты по структуре, выбирал верхнюю или нижнюю часть компонента с помощью специальных клавиш, а в окошке показывались варианты, из которых выбирал цифрой. Скорость — 40–50 символов в минуту, поддерживала более 8000 часто используемых символов.
(слева) прозрачное окно — «магический глаз»; (справа) внутреннее устройство «Минг-куай»|Источник: Facebook
Цюань Юаньжэнь (赵元任) оценил: «И китайцы, и американцы, — достаточно быстро освоят эту клавиатуру. Я считаю, что это именно то, что нам нужно».
Технически «Минг-куай» — прорыв, но коммерчески он провалился.
Когда Ютань показывал устройство руководству Remington, оно сломалось, инвесторы потеряли интерес, а из-за высокой стоимости и личных финансовых проблем он не смог запустить массовое производство. В 1948 году он продал прототип и права на него компании Mergenthaler Linotype. В 1950-х годах, при переезде компании, прототип исчез, и только в 2025 году он вновь появился.
Моллэйн в книге «Китайская пишущая машинка» делает вывод: «Минг-куай» — не провалился.» — как продукт 1940-х он был неудачен, но как человеко-машинный интерфейс — победил.
Лин Ютань впервые превратил китайский «набор текста» в «поиск и выбор». Три ряда клавиш — для выбора компонентов, из которых выбирается иероглиф. Это — основа всех современных методов ввода китайского: от Цзянь, Вэньби до Согого пиньиня.
Эта машина, прошедшая почти 80 лет, и сегодня — в глубине своей идеи — связана с обсуждаемыми нами токенизаторами. Китайский язык всегда сталкивается с одной и той же проблемой:
как подключить его к инфраструктуре, основанной на латинском алфавите.
Интересно, что в этом поиске много случайных совпадений. Сортировка Unicode, сделанная для удобства поиска, и разбиение байтов по BPE — случайные решения, которые, оказавшись внутри нейросетей, вдруг начали воспроизводить процесс обучения чтению иероглифов. А когда инженеры «улучшают» токенизаторы, объединяя иероглифы в целые символы, — они одновременно закрывают себе доступ к этой скрытой, неосознанной возможности. Эффективность растёт, а цена — исчезает, и даже не возникает ошибок или предупреждений.
Итак, ситуация сложнее, чем просто «китайский стоит дороже». Каждый токенизатор оптимизирован под свои предположения, и цена — скрыта в другом месте.
Конец перевода.