Фьючерсы
Доступ к сотням фьючерсов
CFD
Золото
Одна платформа мировых активов
Опционы
Hot
Торги опционами Vanilla в европейском стиле
Единый счет
Увеличьте эффективность вашего капитала
Демо-торговля
Введение в торговлю фьючерсами
Подготовьтесь к торговле фьючерсами
Фьючерсные события
Получайте награды в событиях
Демо-торговля
Используйте виртуальные средства для торговли без риска
Запуск
CandyDrop
Собирайте конфеты, чтобы заработать аирдропы
Launchpool
Быстрый стейкинг, заработайте потенциальные новые токены
HODLer Airdrop
Удерживайте GT и получайте огромные аирдропы бесплатно
Pre-IPOs
Откройте полный доступ к глобальным IPO акций
Alpha Points
Торгуйте и получайте аирдропы
Фьючерсные баллы
Зарабатывайте баллы и получайте награды аирдропа
Инвестиции
Simple Earn
Зарабатывайте проценты с помощью неиспользуемых токенов
Автоинвест.
Автоинвестиции на регулярной основе.
Бивалютные инвестиции
Доход от волатильности рынка
Мягкий стейкинг
Получайте вознаграждения с помощью гибкого стейкинга
Криптозаймы
0 Fees
Заложите одну криптовалюту, чтобы занять другую
Центр кредитования
Единый центр кредитования
Рекламные акции
Промоакции
Участвуйте и получайте награды
Реферал
20 USDT
Приглашайте друзей за бонусы
Партнерская программа
Эксклюзивные комиссионные
Gate Booster
Растите влияние и получайте аирдроп
Анонсы
Обновления в реальном времени
Блог Gate
Статьи о криптоиндустрии
VIP-услуги
Огромные скидки на комиссии
Управление активами
Универсальное решение для управления активами
Институциональный
Крипто-решения для бизнеса
Разработчикам (API)
Подключение к экосистеме приложений Gate
Внебиржевые банковские переводы
Ввод и вывод фиатных денег
Брокерская программа
Щедрые механизмы скидок API
AI
Gate AI
Ваш универсальный AI-ассистент для любых задач
Gate AI Bot
Используйте Gate AI прямо в вашем социальном приложении
GateClaw
Gate Синий Лобстер — готов к использованию
Gate for AI Agent
AI-инфраструктура: Gate MCP, Skills и CLI
Gate Skills Hub
Более 10 тыс навыков
От офиса до трейдинга: единая база навыков для эффективного использования ИИ
GateRouter
Умный выбор из более чем 40 моделей ИИ, без дополнительных затрат (0%)
Экономия 300 миллионов токенов в неделю: руководство по кешированию кода Claude инженеров Anthropic
Примечание редактора: Многие при использовании Claude Code ощущают, что расход токенов слишком быстрый, а длительные сессии легко превышают лимит. Но с точки зрения инженеров Anthropic, на самом деле на стоимость влияет не столько количество написанного кода, сколько наличие системы, которая постоянно переиспользует уже обработанный контекст.
Основная идея статьи — как с помощью кеширования экономить токены. За неделю автор повторно использовал более 300 миллионов токенов через кеш, а дневной объем кеша достигал 91 миллиона. Поскольку стоимость кешированных токенов составляет всего 10% от стоимости обычных входных токенов, это означает, что 91 миллион кешированных токен фактически обходится примерно в 9 миллионов обычных токенов. Длительные сессии Claude Code кажутся более «выносливыми» не потому, что модель работает бесплатно, а потому, что большое количество повторяющегося контекста успешно переиспользуется.
Ключ к Prompt caching — «не прерывать кеш». Claude Code кеширует слоисто системные подсказки, определения инструментов, CLAUDE.md, правила проекта и историю диалогов; если последующие запросы имеют одинаковый префикс, Claude может напрямую читать кеш, не обрабатывая заново весь контекст. Внутри Anthropic также следят за уровнем использования prompt cache, поскольку это влияет не только на лимит пользователя, но и напрямую связано с затратами на обслуживание модели и эффективностью работы.
Для обычных пользователей достаточно понять несколько ключевых правил: не оставлять сессию без активности более часа; при смене задачи делать передачу сессии; избегать частых переключений моделей; большие документы лучше размещать в Projects, а не вставлять их повторно в диалог.
Эта статья скорее не о способах экономии токенов, а о подходе, приближенном к инженерному мышлению при использовании Claude Code: рассматривать контекст как активы, постоянно их переиспользовать, избегать повторных вычислений в длинных сессиях.
Ниже — оригинальный текст:
На этой неделе я сэкономил 300 миллионов токенов, в день — 91 миллион, за неделю — более 300 миллионов.
Я не менял никаких настроек. Это просто нормальное функционирование prompt caching в фоновом режиме.
Но когда я по-настоящему понял, что такое кеш и как избегать его «прерывания», при одинаковом лимите использования моя сессия может длиться дольше. Поэтому я подготовил краткое руководство по prompt caching Claude Code по принципу 80/20, без глубоких деталей API.
TL;DR
Стоимость кешированных токенов составляет всего 10% от стоимости обычных токенов. 91 миллион кешированных токенов — примерно 9 миллионов по стоимости.
Подписка Claude Code использует TTL кеша в 1 час; API по умолчанию — 5 минут; Sub-agent всегда — 5 минут.
Кеш делится на три уровня: системный, проектный и диалоговый.
Переключение модели в середине сессии разрушает кеш, включая режим «opus plan».
Как считается стоимость кеша?
Каждый кешированный токен стоит 10% от стоимости обычного входного токена.
Поэтому, когда мой дашборд показывает, что за день было использовано 91 миллион токенов, попавших в кеш, фактическая оплата примерно равна обработке 9 миллионов токенов. Именно поэтому при длительном использовании Claude Code кажется, что сессия почти «бесплатна» и продлевается за счет повторного использования контекста.
На дашборде есть два важных числа:
Cache create: однократная стоимость записи в кеш, которая начнет работать в следующем диалоге.
Cache read: токены, которые Claude повторно использует из кеша, например, CLAUDE.md, определения инструментов, предыдущие сообщения. В сравнении с повторной обработкой как входных данных, это в 10 раз дешевле.
Если число Cache read высоко, значит кеш используется эффективно; если низко — значит за один и тот же контекст платится многократно.
Thariq из Anthropic сказал очень важную фразу: «Мы реально следим за уровнем попаданий в кеш prompt cache, и при низком уровне срабатываний мы запускаем тревогу или даже объявляем о событии уровня SEV.»
Он также написал хорошую статью в X. Когда уровень попаданий в кеш высок, происходят четыре вещи: Claude Code работает быстрее, снижаются затраты Anthropic, ваш лимит становится более устойчивым, а длительные кодировочные сессии — более реальны.
Но при низком уровне попаданий все страдают.
Итак, мотивация обеих сторон совпадает: Anthropic хочет, чтобы ваш кеш был более эффективным, а вы — чтобы он был высоким. Единственные, кто мешает — это мелкие привычки, которые могут случайно сбросить кеш.
Как кеш растет в каждой новой итерации диалога?
Кеш основан на принципе «префиксного совпадения» — «предваряющего совпадения».
Не вдаваясь в технические детали, достаточно понять: если содержимое до определенной точки совпадает с уже кешированным, Claude может переиспользовать эти токены.
Пример нового диалога:
По документации Claude Code, новый диалог обычно выглядит так:
Первая сессия: кеша еще нет. системные подсказки, контекст проекта (например, CLAUDE.md, память, правила), а также первое сообщение обрабатываются заново и записываются в кеш.
Вторая сессия: все, что было в первой, уже кешировано. Claude обрабатывает только новые ответы и следующую реплику. Стоимость этого этапа значительно ниже.
Третья сессия: аналогично. Предыдущий диалог остается в кеше, и только последний обмен обрабатывается заново.
Кеш делится на три уровня:
Из статьи Thariq в X:
Системный уровень (System layer): включает базовые инструкции, определения инструментов (read, write, bash, grep, glob) и стиль вывода. Этот уровень — глобальный кеш.
Проектный уровень (Project layer): включает CLAUDE.md, память, правила проекта. Этот уровень кешируется по проектам.
Диалоговый уровень (Conversation): включает ответы и сообщения, которые растут с каждой новой репликой.
Если в середине сессии изменяются системные или проектные данные, все кешированные данные нужно заново пересоздавать. Это самое «дорогое» действие. Представьте: вы дошли до 16-й реплики, внезапно изменили системные подсказки или сделали паузу на час — все токены с первой по шестнадцатую придется перерабатывать заново.
Разграничение времени: 1 час и 5 минут
Это самое распространенное заблуждение.
Подписка Claude Code: TTL по умолчанию — 1 час.
API Claude: TTL по умолчанию — 5 минут. Можно заплатить больше, чтобы увеличить до 1 часа.
Для Sub-agent в любом плане — всегда 5 минут.
Веб-чат на Claude.ai: официальной документации нет, возможно, там такой же TTL, как у подписки, но я не подтверждал.
Несколько месяцев назад многие жаловались, что лимит Claude быстро расходуется. Тогда казалось, что Anthropic тайно снизила TTL с 1 часа до 5 минут без уведомления. Но на самом деле, TTL Claude Code остается 1 час.
Проблема в том, что документации по Claude Code и API раздельны, и эти вещи изначально разные, что вызывает путаницу.
Если вы активно используете Sub-agent или API, то 5 минут важны. Но для 95% пользователей Claude Code важен только 1-часовой интервал.
Три привычки для 95% пользователей
Вот что действительно полезно в повседневной работе.
Не оставляйте сессию без активности более часа
Если вы неактивны более часа, кешированные данные почти все устарели. Следующая ваша реплика вызовет пересоздание кеша. В такой ситуации лучше завершить старую сессию и начать новую — это обычно дешевле.
При смене задачи делайте явную передачу сессии
/compact или /clear уничтожают кеш, поэтому лучше делать это именно при необходимости.
Я сам создал «навык» передачи сессии, чтобы заменить /compact. Он подытоживает, что сделано, что осталось, какие важные файлы, и куда дальше двигаться. После этого я вызываю /clear и вставляю туда этот итог — и продолжаю, как будто ничего не прерывалось.
Команда /compact иногда работает медленно. А этот навык передачи обычно занимает менее минуты.
В диалогах Claude лучше помещать большие документы в Projects
Механизм кеширования на Claude.ai не очень подробно описан, но очевидно, что Projects используют другую оптимизацию по сравнению с обычными диалогами. Поэтому, если нужно вставить большой документ, лучше положить его в Project, а не вставлять в диалог.
Что может незаметно разрушить кеш?
Несколько действий могут без предупреждения сбросить весь кеш.
Переключение модели: кеш зависит от префиксного совпадения, а у каждой модели свой кеш. Переключая модель, следующая команда будет без кеша и полностью пересчитает историю.
Режим «opus plan»: он использует Opus на этапе планирования и Sonnet — на этапе выполнения. Я рекомендовал его в видео по оптимизации токенов, и есть причина. Но важно понять: каждый раз при смене плана происходит смена модели, а значит — пересоздание кеша. В долгосрочной перспективе это помогает продлить лимит, но важно знать, что именно происходит.
Редактирование CLAUDE.md в середине сессии — допустимо: изменения не вступают в силу сразу, а только после следующего перезапуска. Поэтому текущий кеш не пострадает.
Мой бесплатный дашборд по токенам
Скриншот, который я показывал, — это дашборд по токенам.
Это очень простой репозиторий на GitHub. Вы даете ссылку Claude Code, и он развертывает локально на localhost, читая все ваши диалоги, а не начинаю с нуля. Там можно сразу видеть ежедневные показатели input, output, cache create и cache read.
Обратите внимание: этот дашборд показывает данные только с локального устройства. Если вы переключитесь с десктопа на ноутбук, цифры могут не совпадать. У каждого устройства своя статистика.
Итог
Prompt caching — очень глубокая тема. Статья Thariq более полно раскрывает ее, если хотите понять всю картину — стоит почитать.
Но для получения выгоды не обязательно знать все детали. Достаточно усвоить главное 80/20: кешированные токены в 10 раз дешевле обычных; TTL Claude Code — 1 час; смена модели разрушает кеш; четкая передача контекста между задачами обычно выгоднее, чем ждать «истечения» старого диалога и продолжать.
[Ссылка на оригинал]
Узнайте о вакансиях в BlockBeats
Присоединяйтесь к официальному сообществу BlockBeats:
Telegram подписка: https://t.me/theblockbeats
Telegram чат: https://t.me/BlockBeats_App
Twitter: https://twitter.com/BlockBeatsAsia