Редакторський коментар: Багато хто при використанні Claude Code найінтуїтивніше відчуває швидке споживання токенів і те, що довгі сесії легко вичерпують ліміт. Але з точки зору інженерів Anthropic, справжній вплив на витрати зазвичай має не кількість написаного коду, а чи системи постійно переиспользують вже оброблений контекст.

Основна ідея цієї статті — як за допомогою кешування економити токени. Автор за тиждень переиспользував понад 300 мільйонів токенів через кеш, а щоденний обсяг кешу досягав 91 мільйон. Оскільки вартість кешованих токенів становить лише 10% від звичайних вхідних токенів, це означає, що 91 мільйон кешованих токенів фактично коштує приблизно 9 мільйонів звичайних токенів. Довгі сесії Claude Code здаються більш «стійкими» не через те, що модель працює безкоштовно, а через те, що багато повторюваного контексту успішно переиспользується.

Ключ до Prompt caching — «не переривати кешування». Claude Code кешує системні підказки, визначення інструментів, CLAUDE.md, правила проекту та історію діалогів у шарах; якщо префікс запиту згодом залишається однаковим, Claude може безпосередньо зчитати кеш, а не переробляти весь контекст знову. Внутрішньо Anthropic також контролює рівень використання prompt cache, оскільки це впливає не лише на ліміт користувача, а й безпосередньо на вартість обслуговування моделі та її ефективність.

Для звичайних користувачів не потрібно глибоко розбиратися у всіх технічних деталях, достатньо засвоїти кілька ключових звичок: не залишати сесію без активності більше ніж на 1 годину; при переключенні завдань робити передачу сесії; уникати частих перемикань моделей; великі документи краще зберігати у Projects, а не вставляти їх повторно у діалог.

Ця стаття більше про те, як використовувати Claude Code з інженерним мисленням: ставитися до контексту як до активу, що потрібно керувати, щоб кешування тривало довше, а довгі сесії не повторювалися без потреби.

Нижче — оригінал:

Цього тижня я зекономив 300 мільйонів токенів, щодня — 91 мільйон, за тиждень — понад 300 мільйонів.

Я не змінював налаштувань. Це просто працює кешування prompt у фоновому режимі.

Але коли я справді зрозумів, що таке кеш і як уникнути його «переривання», за однакових лімітів використання моя сесія може тривати довше. Тому я склав короткий 80/20 гайд по prompt caching для Claude Code, без глибоких технічних деталей API.

TL;DR

Вартість кешованих токенів — лише 10% від звичайних. 91 мільйон кешованих токенів фактично коштує приблизно 9 мільйонів.

Підписка Claude Code має TTL кешу 1 година; API за замовчуванням — 5 хвилин; Sub-agent завжди — 5 хвилин.

Кешування має три рівні: системний, проектний, діалоговий.

Перемикання моделі посередині сесії руйнує кеш, включно з режимом «opus plan».

Як рахується вартість кешу?

Кожен кешований токен коштує 10% від звичайного.

Тому, коли на панелі показано, що за день кеш спожив 91 мільйон токенів, фактично оплата становить приблизно 9 мільйонів токенів. Це пояснює, чому при довгому використанні Claude Code здається, що сесія майже «безкоштовна» і може тривати довше.

На панелі є два важливі числа:

Cache create: одноразова вартість запису в кеш, яка починає діяти у наступній розмові.
Cache read: токени, що Claude переиспользує з кешу, наприклад, CLAUDE.md, визначення інструментів, попередні повідомлення. Вартість у 10 разів дешевша, ніж повторна обробка як нового запиту.

Якщо число Cache read високое, це означає, що ви ефективно використовуєте кеш; якщо низьке — ви платите за один і той самий контекст кілька разів.

Thariq з Anthropic сказав дуже важливу річ: «Ми фактично моніторимо рівень попадань у кеш prompt cache, і якщо він стає низьким, запускаємо попередження або навіть оголошуємо аварійну ситуацію SEV.»

Він також написав хорошу статтю у X. Коли рівень попадань у кеш високий, відбувається одразу чотири речі: Claude Code працює швидше, знижується вартість сервісу Anthropic, ваш ліміт стає більш стійким, а довгі сесії кодування стають реальнішими.

Але якщо рівень попадань низький, всі програють.

Тому мотивація обох сторін — одна: Anthropic прагне підвищити рівень попадань у кеш, а ви — теж. Єдині, хто можуть зашкодити — це дрібні звички, що випадково скидають кеш.

Як кеш зростає у кожному раунді?

Кешування базується на префіксному співпадінні, тобто «передньому співпадінні».

Не потрібно глибоко занурюватися у технічні деталі, достатньо зрозуміти: якщо передбачений фрагмент і кешований контент збігаються повністю, Claude може переиспользувати ці токени.

Загалом, нова сесія виглядає так:

Згідно з документацією Claude Code, нова сесія зазвичай працює так:

Перший раунд: ще немає кешу. системні підказки, контекст проекту (наприклад, CLAUDE.md, пам’ять, правила) і перше повідомлення обробляються заново і записуються у кеш.

Другий раунд: все, що було у першому, вже кешовано. Claude обробля лише нову відповідь і наступне повідомлення. Вартість цього раунду значно нижча.

Третій раунд: логіка та сама. попередні повідомлення залишаються у кеші, обробляється лише новий запит.

Кеш можна поділити на три рівні:

Зі статті Thariq:

Системний рівень (System layer): включає базові інструкції, визначення інструментів (read, write, bash, grep, glob) і стиль виводу. Це глобальний кеш.

Проектний рівень (Project layer): включає CLAUDE.md, пам’ять, правила проекту. Це кеш для конкретного проекту.

Діалоговий рівень (Conversation): включає відповіді і повідомлення, що зростають з кожним раундом.

Якщо під час сесії змінюється будь-який з рівнів системи або проекту, все потрібно кешувати заново. Це найдорожча операція. Уявіть: ви вже на 16-му повідомленні, раптом змінюєте системний підказку або робите паузу на годину — тоді всі токени з першого повідомлення потрібно перезапустити.

Мішанина з годиною і 5 хвилинами

Це найпростіша плутанина.

Підписка Claude Code: TTL за замовчуванням — 1 година.

API Claude: TTL за замовчуванням — 5 хвилин. Можна платити більше і підвищити до 1 години.
Для Sub-agent у будь-якому плані — завжди 5 хвилин.

Веб-чат на Claude.ai: офіційно не задокументовано. Можливо, так само, як і підписка, але я не перевіряв.

Кілька місяців тому багато хто скаржився, що ліміт Claude швидко вичерпується. Тоді хтось думав, що Anthropic таємно зменшила TTL з 1 години до 5 хвилин без повідомлення. Але це не так — TTL у Claude Code все ще 1 година.

Проблема у тому, що документація по Claude Code і API розділена, і вони по суті різні, тому виникає плутанина.

Якщо ви багато працюєте з Sub-agent або безпосередньо через API, 5 хвилин — важливий показник. Але для 95% користувачів Claude Code важливо лише те, що вікно — 1 година.

Три звички для 95% користувачів

Ось кілька порад, що дійсно корисні у щоденному використанні.

Не залишайте сесію без активності понад годину

Якщо ви простоюєте понад годину, кеш зазвичай вже вичерпаний. Наступне повідомлення знову створить кеш. У такій ситуації краще зробити чіткий перехід і почати нову сесію — це зазвичай дешевше.

При переключенні завдань, просто починайте заново

/compact або /clear вже руйнують кеш, тому краще зробити це свідомо і повністю.

Я створив власний навик передачі сесії, щоб замінити /compact. Він підсумовує, що зроблено, що ще потрібно, які файли важливі, і куди рухатися далі. Потім я виконує /clear і вставляю цей підсумок — і можна продовжувати, ніби нічого не переривалося.

Команда /compact іноді працює повільно. Мій навик передачі зазвичай виконується менш ніж за хвилину.

У Claude чатах краще зберігати великі документи у Projects

Механізм кешування на Claude.ai офіційно не описаний докладно, але Projects явно використовують іншу оптимізацію порівняно з звичайними діалогами. Тому, якщо потрібно вставити великий документ, краще зберігати його у Project, а не вставляти безпосередньо у діалог.

Що може неочікувано зруйнувати кеш?

Декілька дій можуть без попередження скинути весь кеш.

Перемикання моделі: оскільки кеш залежить від префіксного співпадіння, кожне переключення моделі — це новий запуск, і кеш не працює.

Режим «Opus plan»: цей режим використовує Opus у планувальній фазі і Sonnet у виконавчій. Я раніше рекомендував його у відео з оптимізацією токенів, і це має сенс. Але потрібно розуміти, що кожне перемикання плану — це фактично перемикання моделі і перезапуск кешу. Це довгостроково допомагає зберегти ліміт, але важливо знати, що саме відбувається під капотом.

Редагування CLAUDE.md під час сесії — можливо, але зміни не застосовуються одразу, а лише після перезапуску. Тому поточний кеш не порушується.

Мій безкоштовний дашборд токенів

Знімки, що я показував раніше, — це з дашборду токенів.

https://github.com/nateherkai/token-dashboard

Це простий репозиторій на GitHub. Надсилаєте посилання Claude Code, і він розгортає локально на localhost, зчитуючи всі ваші попередні сесії, а не починаючи з нуля. Ви одразу бачите дані про input, output, cache create і cache read за кожен день.

Зверніть увагу: цей дашборд рахує токени на локальному пристрої. Якщо ви переключаєтеся з десктопу на ноутбук, цифри можуть не співпадати. Кожен пристрій має свою статистику.

Підсумки

Prompt caching — тема глибока. Стаття Thariq охоплює її ще ширше, якщо хочете побачити повну картину — варто почитати.

Але вам не потрібно знати всі технічні нюанси, щоб отримати користь. Достатньо засвоїти найважливіше 80/20: кешовані токени в 10 разів дешевші за звичайні; TTL у Claude Code — 1 година; перемикання моделей руйнує кеш; чіткий перехід між завданнями зазвичай дешевший, ніж чекати, поки старий сеанс «застигне» і продовжити.

[Посилання на оригінал]

Клацніть, щоб дізнатися про вакансії в BlockBeats

Приєднуйтесь до офіційної спільноти BlockBeats:
Telegram підписка: https://t.me/theblockbeats
Telegram група: https://t.me/BlockBeats_App
Офіційний аккаунт у Twitter: https://twitter.com/BlockBeatsAsia

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

9 лайків

Нагородити
9
8
2
Поділіться

Прокоментувати

Додати коментар

RouterWhisperer

· 2год тому

Повторне використання кешу — це справжня сутність зниження витрат, 300 мільйонів токенів за тиждень — це занадто перебільшено.