Примечание редактора: Многие при использовании Claude Code ощущают, что расход токенов слишком быстрый, а длительные сессии легко превышают лимит. Но с точки зрения инженеров Anthropic, на самом деле на стоимость влияет не столько количество написанного кода, сколько наличие системы, которая постоянно переиспользует уже обработанный контекст.

Основная идея статьи — как с помощью кеширования экономить токены. За неделю автор повторно использовал более 300 миллионов токенов через кеш, а дневной объем кеша достигал 91 миллиона. Поскольку стоимость кешированных токенов составляет всего 10% от стоимости обычных входных токенов, это означает, что 91 миллион кешированных токен фактически обходится примерно в 9 миллионов обычных токенов. Длительные сессии Claude Code кажутся более «выносливыми» не потому, что модель работает бесплатно, а потому, что большое количество повторяющегося контекста успешно переиспользуется.

Ключ к Prompt caching — «не прерывать кеш». Claude Code кеширует слоисто системные подсказки, определения инструментов, CLAUDE.md, правила проекта и историю диалогов; если последующие запросы имеют одинаковый префикс, Claude может напрямую читать кеш, не обрабатывая заново весь контекст. Внутри Anthropic также следят за уровнем использования prompt cache, поскольку это влияет не только на лимит пользователя, но и напрямую связано с затратами на обслуживание модели и эффективностью работы.

Для обычных пользователей достаточно понять несколько ключевых правил: не оставлять сессию без активности более часа; при смене задачи делать передачу сессии; избегать частых переключений моделей; большие документы лучше размещать в Projects, а не вставлять их повторно в диалог.

Эта статья скорее не о способах экономии токенов, а о подходе, приближенном к инженерному мышлению при использовании Claude Code: рассматривать контекст как активы, постоянно их переиспользовать, избегать повторных вычислений в длинных сессиях.

Ниже — оригинальный текст:

На этой неделе я сэкономил 300 миллионов токенов, в день — 91 миллион, за неделю — более 300 миллионов.

Я не менял никаких настроек. Это просто нормальное функционирование prompt caching в фоновом режиме.

Но когда я по-настоящему понял, что такое кеш и как избегать его «прерывания», при одинаковом лимите использования моя сессия может длиться дольше. Поэтому я подготовил краткое руководство по prompt caching Claude Code по принципу 80/20, без глубоких деталей API.

TL;DR

Стоимость кешированных токенов составляет всего 10% от стоимости обычных токенов. 91 миллион кешированных токенов — примерно 9 миллионов по стоимости.

Подписка Claude Code использует TTL кеша в 1 час; API по умолчанию — 5 минут; Sub-agent всегда — 5 минут.

Кеш делится на три уровня: системный, проектный и диалоговый.

Переключение модели в середине сессии разрушает кеш, включая режим «opus plan».

Как считается стоимость кеша?

Каждый кешированный токен стоит 10% от стоимости обычного входного токена.

Поэтому, когда мой дашборд показывает, что за день было использовано 91 миллион токенов, попавших в кеш, фактическая оплата примерно равна обработке 9 миллионов токенов. Именно поэтому при длительном использовании Claude Code кажется, что сессия почти «бесплатна» и продлевается за счет повторного использования контекста.

На дашборде есть два важных числа:

Cache create: однократная стоимость записи в кеш, которая начнет работать в следующем диалоге.
Cache read: токены, которые Claude повторно использует из кеша, например, CLAUDE.md, определения инструментов, предыдущие сообщения. В сравнении с повторной обработкой как входных данных, это в 10 раз дешевле.

Если число Cache read высоко, значит кеш используется эффективно; если низко — значит за один и тот же контекст платится многократно.

Thariq из Anthropic сказал очень важную фразу: «Мы реально следим за уровнем попаданий в кеш prompt cache, и при низком уровне срабатываний мы запускаем тревогу или даже объявляем о событии уровня SEV.»

Он также написал хорошую статью в X. Когда уровень попаданий в кеш высок, происходят четыре вещи: Claude Code работает быстрее, снижаются затраты Anthropic, ваш лимит становится более устойчивым, а длительные кодировочные сессии — более реальны.

Но при низком уровне попаданий все страдают.

Итак, мотивация обеих сторон совпадает: Anthropic хочет, чтобы ваш кеш был более эффективным, а вы — чтобы он был высоким. Единственные, кто мешает — это мелкие привычки, которые могут случайно сбросить кеш.

Как кеш растет в каждой новой итерации диалога?

Кеш основан на принципе «префиксного совпадения» — «предваряющего совпадения».

Не вдаваясь в технические детали, достаточно понять: если содержимое до определенной точки совпадает с уже кешированным, Claude может переиспользовать эти токены.

Пример нового диалога:

По документации Claude Code, новый диалог обычно выглядит так:

Первая сессия: кеша еще нет. системные подсказки, контекст проекта (например, CLAUDE.md, память, правила), а также первое сообщение обрабатываются заново и записываются в кеш.

Вторая сессия: все, что было в первой, уже кешировано. Claude обрабатывает только новые ответы и следующую реплику. Стоимость этого этапа значительно ниже.

Третья сессия: аналогично. Предыдущий диалог остается в кеше, и только последний обмен обрабатывается заново.

Кеш делится на три уровня:

Из статьи Thariq в X:

Системный уровень (System layer): включает базовые инструкции, определения инструментов (read, write, bash, grep, glob) и стиль вывода. Этот уровень — глобальный кеш.

Проектный уровень (Project layer): включает CLAUDE.md, память, правила проекта. Этот уровень кешируется по проектам.

Диалоговый уровень (Conversation): включает ответы и сообщения, которые растут с каждой новой репликой.

Если в середине сессии изменяются системные или проектные данные, все кешированные данные нужно заново пересоздавать. Это самое «дорогое» действие. Представьте: вы дошли до 16-й реплики, внезапно изменили системные подсказки или сделали паузу на час — все токены с первой по шестнадцатую придется перерабатывать заново.

Разграничение времени: 1 час и 5 минут

Это самое распространенное заблуждение.

Подписка Claude Code: TTL по умолчанию — 1 час.

API Claude: TTL по умолчанию — 5 минут. Можно заплатить больше, чтобы увеличить до 1 часа.
Для Sub-agent в любом плане — всегда 5 минут.

Веб-чат на Claude.ai: официальной документации нет, возможно, там такой же TTL, как у подписки, но я не подтверждал.

Несколько месяцев назад многие жаловались, что лимит Claude быстро расходуется. Тогда казалось, что Anthropic тайно снизила TTL с 1 часа до 5 минут без уведомления. Но на самом деле, TTL Claude Code остается 1 час.

Проблема в том, что документации по Claude Code и API раздельны, и эти вещи изначально разные, что вызывает путаницу.

Если вы активно используете Sub-agent или API, то 5 минут важны. Но для 95% пользователей Claude Code важен только 1-часовой интервал.

Три привычки для 95% пользователей

Вот что действительно полезно в повседневной работе.

Не оставляйте сессию без активности более часа

Если вы неактивны более часа, кешированные данные почти все устарели. Следующая ваша реплика вызовет пересоздание кеша. В такой ситуации лучше завершить старую сессию и начать новую — это обычно дешевле.

При смене задачи делайте явную передачу сессии

/compact или /clear уничтожают кеш, поэтому лучше делать это именно при необходимости.

Я сам создал «навык» передачи сессии, чтобы заменить /compact. Он подытоживает, что сделано, что осталось, какие важные файлы, и куда дальше двигаться. После этого я вызываю /clear и вставляю туда этот итог — и продолжаю, как будто ничего не прерывалось.

Команда /compact иногда работает медленно. А этот навык передачи обычно занимает менее минуты.

В диалогах Claude лучше помещать большие документы в Projects

Механизм кеширования на Claude.ai не очень подробно описан, но очевидно, что Projects используют другую оптимизацию по сравнению с обычными диалогами. Поэтому, если нужно вставить большой документ, лучше положить его в Project, а не вставлять в диалог.

Что может незаметно разрушить кеш?

Несколько действий могут без предупреждения сбросить весь кеш.

Переключение модели: кеш зависит от префиксного совпадения, а у каждой модели свой кеш. Переключая модель, следующая команда будет без кеша и полностью пересчитает историю.

Режим «opus plan»: он использует Opus на этапе планирования и Sonnet — на этапе выполнения. Я рекомендовал его в видео по оптимизации токенов, и есть причина. Но важно понять: каждый раз при смене плана происходит смена модели, а значит — пересоздание кеша. В долгосрочной перспективе это помогает продлить лимит, но важно знать, что именно происходит.

Редактирование CLAUDE.md в середине сессии — допустимо: изменения не вступают в силу сразу, а только после следующего перезапуска. Поэтому текущий кеш не пострадает.

Мой бесплатный дашборд по токенам

Скриншот, который я показывал, — это дашборд по токенам.

https://github.com/nateherkai/token-dashboard

Это очень простой репозиторий на GitHub. Вы даете ссылку Claude Code, и он развертывает локально на localhost, читая все ваши диалоги, а не начинаю с нуля. Там можно сразу видеть ежедневные показатели input, output, cache create и cache read.

Обратите внимание: этот дашборд показывает данные только с локального устройства. Если вы переключитесь с десктопа на ноутбук, цифры могут не совпадать. У каждого устройства своя статистика.

Итог

Prompt caching — очень глубокая тема. Статья Thariq более полно раскрывает ее, если хотите понять всю картину — стоит почитать.

Но для получения выгоды не обязательно знать все детали. Достаточно усвоить главное 80/20: кешированные токены в 10 раз дешевле обычных; TTL Claude Code — 1 час; смена модели разрушает кеш; четкая передача контекста между задачами обычно выгоднее, чем ждать «истечения» старого диалога и продолжать.

[Ссылка на оригинал]

Узнайте о вакансиях в BlockBeats

Присоединяйтесь к официальному сообществу BlockBeats:

Telegram подписка: https://t.me/theblockbeats

Telegram чат: https://t.me/BlockBeats_App

Twitter: https://twitter.com/BlockBeatsAsia

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

9 Лайков

Награда
9
8
2
Поделиться

комментарий

Добавить комментарий

RouterWhisperer

· 6ч назад

Повторное использование кэша — это действительно ядро снижения затрат, 300 миллионов токенов за неделю — это слишком много.

Посмотреть ОригиналОтветить0

YieldGoblin

· 15ч назад

Качество компиляции BlockBeats всегда на высоте, этот полезный материал

Посмотреть ОригиналОтветить0

GateUser-047cb6fc

· 15ч назад

Экономия токенов = экономия денег, изучите этот трюк

Посмотреть ОригиналОтветить0

Mint-ColoredSlippage

· 16ч назад

Не токен дорогой, а пользоваться глупо, разве кэш не вкуснее?

Посмотреть ОригиналОтветить0

TheWindOnTheBridgeIsTooStrong.

· 16ч назад

Внутренний опыт, написанный сотрудниками Anthropic, максимально ценен для参考价值

Посмотреть ОригиналОтветить0

0xSecondThought

· 16ч назад

Наконец-то понял, почему мой счет за Claude Code такой астрономический

Посмотреть ОригиналОтветить0

MetalKeyInsomnia

· 16ч назад

Долгосрочный убийца разговоров наконец-то найден

Посмотреть ОригиналОтветить0

SoftRugDetective

· 16ч назад

Использование контекста повторно — разве это не версия Redis на базе LLM?

Посмотреть ОригиналОтветить0

Популярные темы
Подробнее
#
TradfiTradingChallenge
333.04K Популярность
#
PlatinumCardCreatorExclusive
121.17K Популярность
#
IsraelStrikesIranBTCPlunges
49.07K Популярность
#
#DailyPolymarketHotspot
1.05M Популярность
#
GateSquarePizzaDay
1.79M Популярность

Закреплено

Карта сайта

Экономия 300 миллионов токенов в неделю: руководство по кешированию кода Claude инженеров Anthropic

TL;DR

Как считается стоимость кеша?

Как кеш растет в каждой новой итерации диалога?

Разграничение времени: 1 час и 5 минут

Три привычки для 95% пользователей

Не оставляйте сессию без активности более часа

При смене задачи делайте явную передачу сессии

В диалогах Claude лучше помещать большие документы в Projects

Что может незаметно разрушить кеш?

Мой бесплатный дашборд по токенам

Итог

Популярные темы

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Закреплено