«Fable 5 — эта цена намного выше дневной зарплаты китайского программиста. Написание кода, сжигающего несколько сотен тысяч токенов в день, уже считается экономией, а потом смотришь на счёт — несколько тысяч юаней».

Это происходящая реальность. Согласно последним данным, расходы самой Anthropic на вычислительные мощности уже в 2,3 раза превышают её расходы на зарплаты. Если учитывать полную стоимость одного старшего инженера в 224 000 долларов, то ежегодные затраты на вычисления в расчёте на одного инженера Anthropic составляют около 515 000 долларов. Иными словами: люди ещё не дороже моделей.

Перед лицом таких счетов даже самому Claude приходится экономить токены.

Claude Code: сжигание токенов ради иллюзии «я очень продуктивен»

Недавно в индустрии появился новый термин: Token Apocalypse (Токеновый апокалипсис).

От token maxing до token apocalypse — это указывает на действительно большой парадигмальный сдвиг в AI-индустрии. В марте-апреле этого года все ещё хвастались, сколько токенов они использовали, даже воспринимая это как рейтинг. Но использование AI не автоматически означает экономию, поэтому теперь все больше акцентируют внимание на стоимости одного токена.

Более тонкий момент: большие модели также расширяют многие работы, которые изначально вообще не требовали AI. Теперь мы не хотим сами читать PDF, не хотим читать длинные тексты — всё заставляем AI резюмировать. Или конвертируем это в слайды с помощью AI, затем кидаем другим, а те, возможно, снова читают эти слайды с помощью AI... AI как будто насильно добавляет слой ценности в некоторые и без того пустые работы, одновременно незаметно увеличивая счета.

Сейчас потеря контроля над затратами стала нормой. Такие компании, как Amazon, Adobe, Atlassian, Citigroup, начали вводить строгий контроль за использованием AI:

Ограничение уровня моделей: некоторым сотрудникам запрещено использовать высококлассные модели, такие как Claude Opus, их вынуждают переходить на более дешёвые версии;
Установка личных лимитов: Uber установил для каждого инженера ежемесячный лимит токенов в 1500 долларов;
Полное отключение доступа: такие организации, как Citibank, полностью ограничили доступ к продвинутым AI-инструментам, а сотрудники, не достигшие целей использования, лишаются корпоративных аккаунтов. До этого CTO Uber признался, что компания за несколько месяцев исчерпала годовой бюджет на AI. Walmart также недавно прекратил использование некоторых инструментов.

Крупные компании либо повсюду ищут способы сэкономить, либо резко тормозят растрату токенов. Поэтому сотрудники получают крайне противоречивые сообщения: с одной стороны — «AI может повысить твою эффективность в 100 раз, обязательно используй», с другой — «не обанкроть компанию».

Это также самая типичная проблема первого раунда внедрения AI-инструментов: когда инструмент запускается, нет достаточных барьеров, чтобы предотвратить трату компанией миллионов долларов на большие языковые модели, и нет механизма, предупреждающего команду, что токены быстро сгорают. Будь то чат-боты или инструменты для кодирования, многие продукты сначала ставят во главу угла «чтобы можно было использовать», а управление затратами, квоты использования, классификация моделей и управление контекстом откладываются на потом.

Но Claude Code по сути не является инструментом повышения эффективности — это маркетинговый инструмент.

Его цель проектирования ясна: заставить вас чувствовать, что вы продуктивны. Борис, руководитель проекта Claude Code, при создании этого продукта исходил из мысли: «Если модель станет достаточно умной, как будет выглядеть код? Как я хочу использовать эти вещи?» — отправная точка не в том, «как помочь разработчикам сэкономить токены», а в том, «как показать ум модели».

Anthropic готова сжигать огромное количество токенов ради этого «чувства» — будь то ваши деньги или их собственные. Потратить 200 долларов за пять минут для Claude Code — это не авария, а замысел. Его базовая логика такова: проблемы, которые можно решить, сжигая больше токенов, никогда не решаются способами, экономящими токены. Все sub-agent, все причудливые UI-анимации, все длинные reasoning trace — это сделано не для эффективности, а для того, чтобы вы, глядя на экран, думали: «Какая умная модель, как она много может».

За этим стоит тщательно продуманный маркетинговый цикл: вы сжигаете кучу токенов, получаете ощущение «продуктивности», считаете Claude хорошим и продолжаете его использовать. Anthropic даже готова сама нести большие затраты на токены, чтобы получить эту эмоциональную приверженность. Именно поэтому их десктопное приложение явно недоинвестировано — цель Claude Code никогда не была в том, чтобы стать хорошим инструментом, а в том, чтобы стать «лучшей витриной» возможностей моделей Anthropic.

И именно эта философия «сжигай токены ради опыта» привела к тому, что Claude отстаёт от OpenAI в эффективности токенов.

OpenAI всё это время отчаянно давила на сокращение токенов. От сжатия reasoning trace до оптимизации эффективности самих моделей — их философия: выполнять ту же работу с меньшим количеством токенов. Codex 5.5 — лучший пример.

Хотя такие модели, как Fable 5, умны, по сравнению с другими моделями они не столь эффективны — это хорошо демонстрирует этот график от Deep SWE. Если сравнить модели одного ряда, это становится ещё очевиднее: GPT-5.5 medium использовал всего 20 000 токенов и получил потрясающий результат; а Opus 4.8 с 50 000 токенов набрал меньше баллов.

Это самое прямое отражение двух путей: индустрия в панике, Claude сжигает, OpenAI экономит. И следующий вопрос: если нужно снижать затраты, что следует сократить в первую очередь? Ответ: те промпты, которые накапливались слишком долго.

Долг промптов Claude Code: чем больше навалили, тем больше должны

В последнем выступлении Anthropic заявила, что удалила 80% системных промптов Claude Code.

Член технической команды Anthropic Тарик Шихипар объяснил, что это отражает фундаментальное изменение способа управления моделями AI — раньше считалось, что чем больше инструкций и примеров, тем лучше работает модель; теперь эта логика больше не работает. Новая модель Fable 5 обладает большей фантазией, чем предоставленные примеры, и примеры становятся ограничением.

Конечно, здесь есть элемент маркетинга — он похвастался возможностями Fable: «Примеры, наоборот, легко ограничивают модель, потому что она на самом деле более изобретательна, чем данные нами примеры». Но факта не обойти: даже сама Anthropic начала сокращать system prompt.

Почему же раньше требовалось так много промптов?

За последние год-два в сфере AI-кодинга сформировалось инерционное мышление: чем больше контекст, тем лучше; чем больше описаний инструментов, тем лучше; чем полнее system prompt, тем лучше. Модель не знает, как организован проект? Напиши Agents.md. Модель не знает, как использовать инструменты? Напиши tool descriptions. Модель недостаточно активна? Напиши руководство по поведению. Модель недостаточно стабильна? Продолжай добавлять ограничения в system prompt.

Нельзя отрицать, что system prompt когда-то был ключевым конкурентным преимуществом инструментов AI-кодинга. Небольшие корректировки промптов LLM могут привести к значительному повышению производительности. Если одна и та же модель ощущается по-разному в Codex, Cursor, OpenCode и Copilot, это почти наверняка объясняется тонкими различиями в промптах.

Именно поэтому Cursor тратил много времени на тестирование system prompt, проводил A/B-тестирование, настраивал способы промптинга для разных моделей. По сравнению с использованием Opus в Claude Code, Cursor harness может значительно улучшить производительность модели, в некоторых бенчмарках прирост достигает 10–30%. Разница часто заключается в нескольких абзацах промптов.

Но проблема в том, что как только промпт полезен, команды постоянно добавляют в него что-то. Модель любит неправильно использовать инструменты — добавляем правило; модель недостаточно активна — добавляем поощрение; модель слишком много ищет — добавляем ограничение; модель не понимает контекст проекта — добавляем ещё один markdown-файл. Каждое дополнение имеет причину, но со временем system prompt превращается в огромный постоянный контекстный груз.

Проблема в том, что system prompt не бесплатен. При каждом вызове он считывается, тарифицируется и занимает контекст.

После того как Claude Code встроил в себя все инструменты и функции, system prompt раздулся до 65 000 токенов; даже при отключении большинства функций он остаётся на уровне 12 000 токенов. Иными словами, модель ещё не начала писать ни строчки кода, а уже несёт на себе инструкцию. Для сравнения: контекст Pi при запуске — менее тысячи токенов.

Ещё более неприятно то, что промпт-долг более скрыт, чем код-долг.

Старый код обычно проявляется при изменении функциональности, запуске тестов, исправлении багов. Старый промпт может просто незаметно ухудшить модель. Пользователь видит «Claude Code в последнее время стал как будто не таким умным» или «новая модель не так сильна, как рекламируют», но реальная причина может быть в том, что старый system prompt не поспевает за новой моделью.

Когда промпт превращается из конкурентного преимущества в обузу, Anthropic решает удалить 80%, также повышая эффективность токенов.

«Налог на болтовню» Claude: скажешь лишнее слово — заплатишь лишнюю цену

Claude Code слишком много болтает.

В этом году стремительно набрал популярность плагин под названием Caveman, специально решающий эту проблему. Его название переводится как «пещерный человек», подразумевая говорить, как первобытные люди — без вежливости, без лишней грамматики, без слов-паразитов, оставляя только суть.

На первый взгляд это кажется шуткой. Но если разобраться, вы поймёте, что он решает очень реальную проблему LLM: слишком много лишних слов, слишком много токенов, неоправданно высокие затраты.

А его происхождение как раз связано с Claude Code.

«Я сделал Caveman в начале апреля, потому что в то время интенсивно использовал Claude Code и заметил, что большая часть моих затрат на токены уходит на ненужный текст: приветствия, размытые формулировки, переходные фразы и прочие разговорные выражения, которые на самом деле не важны в agent loop», — говорит создатель Caveman Юлиус Брюссе.

Тесты Брюссе показали, что Caveman по сравнению со стандартным выводом сокращает выходные токены на 65–75%, при этом эффективность превосходит обычную команду «будь краток». Он в основном сжимает окружающий язык, не затрагивая код, команды, пути, URL, имена функций — те части, которые требуют точности.

Сообщается, что директор инженерии OpenAI Шейн Суини также внёс код в этот проект для поддержки Codex.

Что ещё интереснее, OpenAI давно применяет такой языковой режим в процессе размышлений.

Некоторые утекшие reasoning trace (не те reasoning summary, которые показывают пользователю) приоткрыли завесу. Содержание не похоже на обычный английский, скорее на сжатую инженерную стенографию:

«Use core new nodes. Need infer. Need add VAE encode for images. Try. Try period.»

Эти предложения выглядят забавно, даже немного хаотично, но их суть — не в читабельности, а в эффективности токенов. Когда модель рассуждает внутренне, ей не нужно сохранять вежливость, полноту и плавность, как при разговоре с пользователем. Ей достаточно сохранить действия, объекты, суждения и следующие шаги. Другими словами, если конечный ответ нормальный, модель вполне может использовать более короткий, грубый, экономящий токены язык для размышлений, бешено стремясь к эффективности токенов.

Это даже более полезно, чем этап написания промптов. Сжатие reasoning token даёт больший выигрыш, потому что агент работает в несколько шагов — размышления предыдущего шага становятся входом для следующего. Каждый раз, когда модель «думает» меньше, экономится не только текущий токен, но и повторяющиеся накладные расходы на всей последующей цепочке выполнения.

Это как раз заметное различие между OpenAI и Claude.

Claude всегда был лучше в общении и更像 помощника, который думает и выражается полным языком. Достаточно взглянуть на его более длинные reasoning trace, чтобы предположить, что он, вероятно, использует обычный английский. Его вывод и размышления часто длиннее, поэтому он больше полагается на большой контекстный окно, чтобы вместить этот контент.

Именно поэтому Claude по умолчанию использует контекстное окно в 1 миллион токенов. Многие думают, что это для того, чтобы вместить большую кодовую базу, но причина проще: генерируемый Claude контент настолько длинный, что без такого окна его не поместить. У них даже с компактификацией плохо — когда вы восстанавливаете старый тред, Claude предлагает не сохранять полный контекст, а попытаться сжать. Потому что они не хранят reasoning trace — на самом деле они очищают эти вещи через 10–20 минут, поскольку reasoning token настолько неэффективен, что не стоит его долго хранить, иначе затраты станут абсурдно неприемлемыми.

А модели OpenAI имеют контекстное окно токенов около 200 000 или меньше, но они с самого начала добиваются сжатия с помощью этого краткого языка.

Стоит задуматься над деталью: если Anthropic исправит «слишком много болтовни», их доход значительно упадёт. Если разработчики смогут выполнять ту же работу с моделью, генерируя меньше токенов, это будут деньги, которые они не заработают.

Источник: InfoQ

Предупреждение о рисках и отказ от ответственности

        Рынок подвержен рискам, инвестиции требуют осторожности. Данная статья не является индивидуальной инвестиционной рекомендацией и не учитывает особые инвестиционные цели, финансовое положение или потребности отдельных пользователей. Пользователи должны учитывать, соответствуют ли какие-либо мнения, точки зрения или выводы в данной статье их конкретной ситуации. Инвестиции на основе этого осуществляются на свой страх и риск.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
gStocksTokenizedStocksLive
1,08M Популярность
#
StrongNonfarmPayrollsRekindleRateHikeFear
1,03M Популярность
#
IsraelStrikesIranBTCPlunges
67,83K Популярность
#
PredictWorldCupShare20000U
190,87K Популярность
#
ETHBreaks1700
120,76M Популярность

Закреплено

Карта сайта

Claude Code 80% промпт-токенов могут быть удалены просто так, Anthropic показал пример с Fable 5: «снижение затрат» в AI-индустрии только начинается.

Claude Code: сжигание токенов ради иллюзии «я очень продуктивен»

Долг промптов Claude Code: чем больше навалили, тем больше должны

«Налог на болтовню» Claude: скажешь лишнее слово — заплатишь лишнюю цену

Популярные темы

gStocksTokenizedStocksLive

StrongNonfarmPayrollsRekindleRateHikeFear

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

ETHBreaks1700

Закреплено