Claude Code 80% підказок можна просто видалити, Anthropic на прикладі Fable 5 показав, що «зниження витрат» у AI-індустрії тільки починається.

“Fable 5 这个价格远高于中国程序员一天工资。写代码一天烧几百万 token 已经很节约了,然后一看账单几千 rmb。”

«Ціна Fable 5 значно вища за денну зарплатню китайського програміста. Писати код, спалюючи мільйони токенів на день, вже вважається економією, а потім дивишся на рахунок — кілька тисяч юанів.»

Це реальність, яка відбувається зараз. Згідно з останніми даними, витрати самої компанії Anthropic на обчислювальні потужності вже в 2,3 рази перевищують їхні витрати на зарплати. Якщо врахувати повну вартість одного старшого інженера в 224 000 доларів на рік, то на кожного інженера Anthropic припадає приблизно 515 000 доларів витрат на обчислення. Іншими словами: люди вже не такі дорогі, як моделі.

Перед такими рахунками навіть Claude змушений економити токени.

Claude Code: спалювати токени в обмін на ілюзію «я дуже продуктивний»

Нещодавно в індустрії з'явився новий термін: Token Apocalypse (Токеновий апокаліпсис).

Від token maxing до token apocalypse — це вказує на те, що в галузі ШІ дійсно відбувається дуже серйозна зміна парадигми. У березні-квітні цього року всі хизувалися, скільки токенів вони використали, навіть сприймаючи це як рейтинг. Але використання ШІ не означає автоматичної економії, тому тепер почали більше наголошувати на вартості одного токена.

Ще тонший момент: великі моделі також значно розширюють обсяг робіт, які взагалі не потребували ШІ. Тепер ми не хочемо самі читати PDF, не хочемо самі читати довгі тексти — все треба, щоб ШІ підсумував. Або перетворюємо це на слайди за допомогою ШІ, потім кидаємо комусь, а той, можливо, знову читатиме ці слайди за допомогою ШІ... ШІ ніби насильно додає цінність деяким і так не надто змістовним роботам, одночасно непомітно збільшуючи рахунки.

Зараз втрата контролю над витратами стала нормою. Amazon, Adobe, Atlassian, Citigroup та інші компанії почали запроваджувати суворий контроль за використанням ШІ:

  • Обмеження рівнів моделей: деяким співробітникам заборонено використовувати преміум-моделі, такі як Claude Opus, змушуючи переходити на дешевші версії;

  • Встановлення індивідуальних лімітів: Uber встановив для кожного інженера місячний ліміт токенів у 1500 доларів;

  • Повне блокування доступу: такі установи, як Citibank, повністю обмежили доступ до передових інструментів ШІ, а співробітники, які не досягли цільових показників використання, навіть втрачають корпоративні акаунти. До цього CTO Uber зізнався, що компанія витратила річний бюджет на ШІ за кілька місяців. Walmart також нещодавно припинив використання деяких інструментів.

Великі компанії або шукають способи заощадити, або різко гальмують марнування токенів. Тому співробітники отримують вкрай суперечливу інформацію: з одного боку — «ШІ підвищить твою ефективність у 100 разів, ти мусиш ним користуватися», з іншого — «Не доведи компанію до банкрутства».

Це найхарактерніша проблема першої хвилі впровадження інструментів ШІ: коли інструмент запускають, немає достатніх обмежень, щоб запобігти витраті компанією мільйонів доларів на великі мовні моделі, і немає механізму, який би попереджав команду, що токени швидко вичерпуються. Незалежно від того, чи це чат-боти, чи інструменти для кодування, багато продуктів спочатку ставлять «щоб можна було використовувати», а управління витратами, квоти використання, класифікація моделей та управління контекстом відкладають на потім.

Але Claude Code по суті не є інструментом підвищення ефективності — це маркетинговий інструмент.

Його мета зрозуміла: змусити вас відчувати, що ви продуктивні. Боріс, керівник проекту Claude Code, спочатку думав: «Якщо модель стане досить розумною, яким буде код? Як я хотів би використовувати ці речі?» — відправна точка не «як допомогти розробникам заощаджувати токени», а «як продемонструвати розумність моделі».

Anthropic готова спалювати величезну кількість токенів заради цього «відчуття» — байдуже, ваші це гроші чи їхні власні. Витратити 200 доларів за п'ять хвилин — для Claude Code це не аварія, а особливість дизайну. Його базова логіка: якщо проблему можна вирішити, спалюючи більше токенів, ніколи не шукай спосіб заощадити. Усі sub-agent, усі яскраві UI-анімації, усі довгі reasoning trace — не для ефективності, а щоб ви, дивлячись на екран, думали: «Яка ж ця модель розумна, яка продуктивна».

За цим стоїть ретельно спланований маркетинговий цикл: ви спалюєте купу токенів, отримуєте відчуття «продуктивності», тому вважаєте Claude хорошим і продовжуєте ним користуватися. Anthropic навіть готова брати на себе значну частину витрат на токени в обмін на це емоційне схвалення. Саме тому їхній десктопний додаток явно недоінвестований — Claude Code ніколи не мав на меті стати хорошим інструментом, а бути «найкращою вітриною» можливостей моделей Anthropic.

І саме ця філософія дизайну «спалювати токени в обмін на досвід» призвела до того, що Claude відстає від OpenAI в ефективності використання токенів.

OpenAI постійно намагається зменшити кількість токенів. Від стиснення reasoning trace до оптимізації ефективності самих моделей — їхня філософія: виконувати ту саму роботу з меншою кількістю токенів. Найкращий приклад — Codex 5.5.

Хоча такі моделі, як Fable 5, дуже розумні, вони не дуже ефективні порівняно з іншими моделями. Цей графік від Deep SWE добре ілюструє це. Якщо порівняти моделі однієї групи, це стає ще очевиднішим: GPT-5.5 medium використав лише 20 000 токенів і отримав вражаючий результат; тоді як Opus 4.8 використав 50 000 токенів і отримав нижчий бал.

Це найпряміше відображення двох шляхів: індустрія панікує, Claude спалює, OpenAI економить. І наступне питання — якщо потрібно знижувати витрати, що скорочувати першим? Відповідь: ті накопичені занадто довгі промпти.

Борг Prompt у Claude Code: чим більше накопичили, тим більше заборгували

В останній доповіді Anthropic повідомила, що вони видалили 80% системних промптів Claude Code.

Член технічної команди Anthropic Тарік Шіхіпар пояснив, що це відображає фундаментальну зміну в тому, як керують моделями ШІ — раніше вважалося, що чим більше інструкцій і прикладів, тим краще працює модель; але тепер ця логіка більше не діє. Нова модель Fable 5 має більше уяви, ніж надані їй приклади; приклади, навпаки, стають обмеженням.

Звісно, тут є маркетингова складова — він вихваляв можливості Fable: «Приклади легко обмежують модель, адже вона насправді має більше уяви, ніж ми їй даємо». Але факт залишається фактом: навіть Anthropic почала скорочувати system prompt.

Чому раніше потрібно було стільки промптів?

Останні рік-два в AI Coding сформувалося інерційне мислення: чим більший контекст, тим краще; чим більше описів інструментів, тим краще; чим повніший system prompt, тим краще. Модель не знає, як організований проект? Напишіть Agents.md. Модель не знає, як користуватися інструментами? Напишіть tool descriptions. Модель недостатньо ініціативна? Додайте поведінкові вказівки. Модель нестабільна? Продовжуйте додавати обмеження в system prompt.

Не можна заперечувати, що system prompt колись був ключовою конкурентною перевагою інструментів AI Coding. Невеликі зміни в промпті LLM могли призвести до значного підвищення продуктивності. Якщо одна й та сама модель у Codex, Cursor, OpenCode та Copilot відчувається по-різному, то майже напевно це через тонкі відмінності в промптингу.

Саме тому Cursor витрачав багато часу на тестування system prompt, проводив A/B тестування та налаштовував способи промптингу для різних моделей. Порівняно з використанням Opus у Claude Code, оболонка Cursor могла значно покращити продуктивність моделі; за деякими бенчмарками приріст сягав 10-30%. Ключова різниця часто полягала в кількох абзацах промпту.

Але проблема в тому, що поки промпти корисні, команди постійно додають нові. Якась модель любить використовувати інструменти хаотично — додайте правило; якась модель недостатньо ініціативна — додайте заохочення; якась модель надто часто шукає — додайте обмеження; якась модель не розуміє контексту проекту — додайте файл markdown. Кожне додавання має причину, але з часом system prompt перетворюється на величезний постійний контекстний тягар.

Проблема в тому, що system prompt не безкоштовний. Його зчитують при кожному виклику, враховують у вартості та займають контекст.

Після того, як Claude Code вбудував усі інструменти та функції, його system prompt одного разу роздувся до 65 000 токенів; навіть якщо вимкнути більшість функцій, залишається 12 000 токенів. Іншими словами, модель ще не почала писати жодного рядка коду, а вже має на плечах цілу інструкцію. Для порівняння: контекст при запуску Pi становить менше тисячі токенів.

Ще більш проблематично те, що борг prompt є більш прихованим, ніж борг коду.

Коли код старіє, це зазвичай виявляється під час зміни функціональності, запуску тестів або виправлення помилок. Коли промпти старіють, вони можуть просто непомітно погіршити роботу моделі. Користувач бачить, що «Claude Code останнім часом не такий розумний, як раніше» або «нова модель не така потужна, як рекламували», але справжня причина може бути в тому, що старі system prompt не встигають за новою моделлю.

Коли промпти перетворюються з конкурентної переваги на тягар, Anthropic вирішує видалити 80%, що також дозволяє підвищити ефективність використання токенів.

«Податок на балаканину» Claude: зайве слово — зайві гроші

У Claude Code занадто багато балаканини.

Цього року раптово став популярним плагін під назвою Caveman, який спеціалізується на вирішенні саме цієї проблеми. Його назва дослівно перекладається як «печерна людина», що означає говорити як первісні люди — без ввічливості, без зайвої граматики, без слів-паразитів, залишаючи лише суть.

На перший погляд це звучить як жарт. Але коли розумієш, виявляєш, що він вирішує дуже реальну проблему LLM: занадто багато балаканини, занадто багато токенів, непотрібно високі витрати.

А його походження — саме від Claude Code.

«Я зробив Caveman на початку квітня, тому що активно користувався Claude Code і помітив, що значна частина моїх витрат на токени йшла на непотрібний текст: вітання, розмиті формулювання, перехідні фрази та інші балачки, які насправді не мають значення в agent loop», — сказав творець Caveman Юліус Брюссе.

Тестування Брюссе показує, що Caveman зменшує вихідні токени на 65-75% порівняно з вихідним виводом, при цьому ефективність все одно вища за звичайну команду «будь лаконічним». Він стискає переважно навколишню мову, не впливаючи на код, команди, шляхи, URL, назви функцій — усе, що потребує точності.

Повідомляється, що директор з інженерії OpenAI Шейн Суїні також зробив внесок у цей проект, підтримавши Codex.

Що цікавіше, OpenAI вже давно застосовує такий мовний режим у процесі мислення.

Деякі витоки reasoning trace (не ті, що показують назовні, а внутрішні) дозволили побачити натяки. Вони не схожі на звичайну англійську, більше на стислу інженерну стенограму:

«Використовувати основні нові вузли. Потрібно вивести. Потрібно додати VAE encode для зображень. Спробувати. Спробувати період.»

Ці речення виглядають смішно і навіть дещо хаотично, але їхня мета не в читабельності, а в ефективності токенів. Коли модель міркує внутрішньо, їй не потрібно дотримуватися ввічливості, повноти та плавності, як у спілкуванні з користувачем. Їй потрібно лише зберегти дію, об'єкт, судження та наступний крок. Іншими словами, якщо кінцева відповідь нормальна, модель внутрішньо може використовувати набагато коротшу, грубішу та економнішу мову для мислення, шалено ганяючись за ефективністю токенів.

Це навіть корисніше, ніж у написанні промптів. Стиснення reasoning token дає більший ефект, оскільки агент виконує багато кроків: думка попереднього кроку стає входом наступного. Кожен раз, коли модель «думає» менше, заощаджується не лише ці кілька токенів, а й подальші повторні витрати на всьому ланцюжку виконання.

Це явна відмінність між шляхами OpenAI та Claude.

Claude завжди був кращим у спілкуванні, більше схожим на помічника, який мислить і висловлюється повною мовою. Достатньо поглянути на його набагато довші reasoning trace, щоб здогадатися, що він, ймовірно, використовує звичайну англійську. Його вихідні дані та міркування часто довші, тому він більше покладається на велике контекстне вікно, щоб вмістити все це.

Саме тому Claude за замовчуванням використовує контекстне вікно в 1 мільйон токенів. Багато хто думає, що це для того, щоб вмістити більшу кодову базу, але причина простіша: Claude генерує занадто багато тексту, і без такого великого вікна він би не вмістився. Він також погано працює з ущільненням (compaction): коли ви відновлюєте старий потік, Claude пропонує не зберігати повний контекст, а спробувати compact. Тому що вони не зберігають reasoning trace — насправді вони очищають їх через 10-20 хвилин, оскільки reasoning token мають занадто низьку ефективність, і їх не варто зберігати постійно, інакше витрати стануть абсурдно неприйнятними.

Натомість контекстне вікно моделей OpenAI становить близько 200 000 або менше, але оскільки вони одразу стискають текст за допомогою цієї короткої мови, вони цього досягають.

Варта уваги деталь: якщо Anthropic виправить проблему «занадто багато балаканини», їхні доходи значно впадуть. Якщо розробники зможуть виконувати ту саму роботу з моделлю, але генерувати менше токенів, це означатиме гроші, які вони не зможуть заробити.

Джерело: InfoQ

Застереження щодо ризику та відмова від відповідальності

Ринок несе ризики, інвестиції потребують обережності. Ця стаття не є індивідуальною інвестиційною рекомендацією і не враховує особливі інвестиційні цілі, фінансовий стан або потреби окремих користувачів. Користувачі повинні оцінити, чи відповідають будь-які думки, точки зору чи висновки в цій статті їхнім конкретним обставинам. Інвестування на основі цього здійснюється на власний ризик.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено