Claude的中文税:问同样内容比英文多花65%token,OpenAI只多15%

robot
Генерация тезисов в процессе

По данным мониторинга Beating, исследователь ИИ Аран Комацузаки перевёл известную статью Рича Саттона «Горький урок» на 9 языков, загрузил её в токенизаторы моделей OpenAI, Gemini, Qwen, DeepSeek, Kimi, Claude, чтобы сравнить количество использованных токенов. В качестве базовой величины взято число токенов английского оригинала, обработанного токенизатором OpenAI — оно равно 1. Посчитано, сколько раз больше или меньше требуется токенов для каждого языка на каждой модели. Результаты: тот же самый текст на китайском при问 Claude расходует в 1.65 раза больше токенов, чем базовая величина; на OpenAI — всего 1.15 раза. На хинди в Claude ещё более «жадный», более чем в 3 раза превышает базу. В шести моделях Anthropic занимает последнее место.

Перевод изменяет длину текста, поэтому показатели в отношении к английскому не всегда точны. Но более убедительно то, как один и тот же текст на китайском показывает себя на разных моделях (по той же базе): Kimi использует всего 0.81 раза (меньше английского), Qwen — 0.85 раза, а Claude — 1.65 раза. Текст полностью одинаков, разница — только в эффективности токенизации. Модели из Китая обрабатывают китайский даже более экономно, чем английский, что говорит о том, что проблема не в самом языке, а в том, насколько хорошо токенизатор оптимизирован под этот язык.

Для пользователей больше токенов — значит дороже API, дольше ожидание ответа модели, быстрее исчерпается окно контекста. Эффективность токенизатора зависит от доли языков в обучающих данных: чем больше английских данных, тем эффективнее сжимается английский текст; меньшая доля неанглийских данных — тем более фрагментированным он получается. Итог Арана: у кого рынок больше, тот экономит токены.

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить