Аран перевел «Горький урок» на 9 языков, чтобы протестировать токенизаторы различных моделей, исходя из количества токенов в оригинальном английском тексте. Результаты показывают, что один и тот же китайский язык значительно различается по количеству токенов в разных моделях: Claude — 1,65 раза, OpenAI — 1,15 раза, Kimi — 0,81 раза, Qwen — 0,85 раза; для хинди в Claude количество токенов превышает в три раза, а у Anthropic — самое низкое. Вывод: чем больше токенов, тем дороже, степень оптимизации токенизации под язык определяет эффективность, а язык с большей долей рынка экономит токены.

BlockBeatNews

2026-04-29 08:22:06

Генерация тезисов в процессе

По данным мониторинга Beating, исследователь ИИ Аран Комацузаки перевёл известную статью Рича Саттона «Горький урок» на 9 языков, загрузил её в токенизаторы моделей OpenAI, Gemini, Qwen, DeepSeek, Kimi, Claude, чтобы сравнить количество использованных токенов. В качестве базовой величины взято число токенов английского оригинала, обработанного токенизатором OpenAI — оно равно 1. Посчитано, сколько раз больше или меньше требуется токенов для каждого языка на каждой модели. Результаты: тот же самый текст на китайском при问 Claude расходует в 1.65 раза больше токенов, чем базовая величина; на OpenAI — всего 1.15 раза. На хинди в Claude ещё более «жадный», более чем в 3 раза превышает базу. В шести моделях Anthropic занимает последнее место.

Перевод изменяет длину текста, поэтому показатели в отношении к английскому не всегда точны. Но более убедительно то, как один и тот же текст на китайском показывает себя на разных моделях (по той же базе): Kimi использует всего 0.81 раза (меньше английского), Qwen — 0.85 раза, а Claude — 1.65 раза. Текст полностью одинаков, разница — только в эффективности токенизации. Модели из Китая обрабатывают китайский даже более экономно, чем английский, что говорит о том, что проблема не в самом языке, а в том, насколько хорошо токенизатор оптимизирован под этот язык.

Для пользователей больше токенов — значит дороже API, дольше ожидание ответа модели, быстрее исчерпается окно контекста. Эффективность токенизатора зависит от доли языков в обучающих данных: чем больше английских данных, тем эффективнее сжимается английский текст; меньшая доля неанглийских данных — тем более фрагментированным он получается. Итог Арана: у кого рынок больше, тот экономит токены.

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
WCTCTradingKingPK
367.05K Популярность
#
CryptoMarketsDipSlightly
271.87K Популярность
#
IsraelStrikesIranBTCPlunges
36.04K Популярность
#
#DailyPolymarketHotspot
701.21K Популярность
#
StrategyAccumulates2xMiningRate
139.47M Популярность

Закрепить

Карта сайта

Claude的中文税：问同样内容比英文多花65%token，OpenAI只多15%

Популярные темы

WCTCTradingKingPK

CryptoMarketsDipSlightly

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

StrategyAccumulates2xMiningRate

Закрепить