Фьючерсы
Доступ к сотням фьючерсов
CFD
Золото
Одна платформа мировых активов
Опционы
Hot
Торги опционами Vanilla в европейском стиле
Единый счет
Увеличьте эффективность вашего капитала
Демо-торговля
Введение в торговлю фьючерсами
Подготовьтесь к торговле фьючерсами
Фьючерсные события
Получайте награды в событиях
Демо-торговля
Используйте виртуальные средства для торговли без риска
Запуск
CandyDrop
Собирайте конфеты, чтобы заработать аирдропы
Launchpool
Быстрый стейкинг, заработайте потенциальные новые токены
HODLer Airdrop
Удерживайте GT и получайте огромные аирдропы бесплатно
Pre-IPOs
Откройте полный доступ к глобальным IPO акций
Alpha Points
Торгуйте и получайте аирдропы
Фьючерсные баллы
Зарабатывайте баллы и получайте награды аирдропа
Инвестиции
Simple Earn
Зарабатывайте проценты с помощью неиспользуемых токенов
Автоинвест.
Автоинвестиции на регулярной основе.
Бивалютные инвестиции
Доход от волатильности рынка
Мягкий стейкинг
Получайте вознаграждения с помощью гибкого стейкинга
Криптозаймы
0 Fees
Заложите одну криптовалюту, чтобы занять другую
Центр кредитования
Единый центр кредитования
Рекламные акции
Промоакции
Участвуйте и получайте награды
Реферал
20 USDT
Приглашайте друзей за бонусы
Партнерская программа
Эксклюзивные комиссионные
Gate Booster
Растите влияние и получайте аирдроп
Анонсы
Обновления в реальном времени
Блог Gate
Статьи о криптоиндустрии
VIP-услуги
Огромные скидки на комиссии
Управление активами
Универсальное решение для управления активами
Институциональный
Крипто-решения для бизнеса
Разработчикам (API)
Подключение к экосистеме приложений Gate
Внебиржевые банковские переводы
Ввод и вывод фиатных денег
Брокерская программа
Щедрые механизмы скидок API
AI
Gate AI
Ваш универсальный AI-ассистент для любых задач
Gate AI Bot
Используйте Gate AI прямо в вашем социальном приложении
GateClaw
Gate Синий Лобстер — готов к использованию
Gate for AI Agent
AI-инфраструктура: Gate MCP, Skills и CLI
Gate Skills Hub
Более 10 тыс навыков
От офиса до трейдинга: единая база навыков для эффективного использования ИИ
GateRouter
Умный выбор из более чем 40 моделей ИИ, без дополнительных затрат (0%)
Claude Code Советы по экономии денег: инженеры экономят 300 миллионов токенов в неделю благодаря кэшу, ключ в том, чтобы не прерывать
Код Claude: есть ли лимит на длительные диалоги? Инженер Nate Herk раскрывает, что за неделю он сэкономил 300 миллионов токенов благодаря кешированию, максимум за один день — 91 миллион. Ключ не в том, сколько кода пишешь, а в том, как не «прерывать» кеш, чтобы повторяющийся контекст больше не тратил деньги.
(Предыстория: проект badclaude с открытым исходным кодом для ускорения Claude code, который был уведомлен о нарушении авторских прав от Anthropic)
(Дополнение: Claude Code добавил функцию планировщика задач в облаке! Не нужно включать компьютер — AI автоматически проверяет PR, обновляется)
Содержание статьи
Переключатель
Многие разработчики при использовании Claude Code сталкиваются с тем, что лимит токенов быстро исчерпывается, а длительный диалог почти становится роскошью.
Но популярный блогер Nate Herk, делясь советами по использованию AI, в одном из твитов на X раскрыл, что настоящая причина затрат — не объем кода, а правильное использование механизма кеширования prompt caching. Он за неделю сэкономил более 3 миллиардов токенов, максимум за день — 91 миллион: поскольку стоимость кешированных токенов составляет всего 10% от обычных входных токенов, это означает, что за день он платил примерно за 900万 токенов, что почти «бесплатно» продлевает срок жизни диалогов.
Я сэкономил за эту неделю 3 миллиарда токенов, максимум за день — 91 миллион.
Я не менял никаких настроек. Это просто нормальное использование prompt caching в фоновом режиме.
Когда я понял, что такое кеш и как избегать его «разрывов», при том же лимите я мог вести диалог дольше. Поэтому я подготовил краткое руководство по Claude Code prompt caching — 80/20, без глубоких API-деталей.
Стоимость кеша токенов — всего 10% от стоимости обычных входных токенов. 9100万 кешированных токенов — примерно 900万 по счетам.
Подписка Claude Code использует TTL кеша в 1 час; по умолчанию API — 5 минут; субагенты всегда — 5 минут.
Кеш делится на три слоя: системный, проектный и диалоговый.
Переключение модели в середине диалога разрушает кеш, включая режим «opus plan».
Стоимость кеша — всего 10%, 9100万 токенов — это 900万
Каждый кешированный токен стоит всего 10% от стоимости обычного входного токена.
Поэтому, когда моя панель показывает, что в один из дней было 9100万 токенов, попавших в кеш, фактическая оплата примерно равна обработке 900万 токенов. Именно поэтому при длительном использовании Claude Code кажется, что диалог почти «бесплатен» и продлевается.
На панели есть два числа, за которыми стоит следить:
Cache create — однократная стоимость записи в кеш. Она действует в следующем диалоге.
Cache read — токены, которые Claude использует из кеша, например CLAUDE.md, определения инструментов, предыдущие сообщения. По сравнению с повторной обработкой входных данных, это в 10 раз дешевле.
Если число Cache read высокое, значит кеш используется эффективно; если низкое — значит за один и тот же контекст платится повторно.
Thariq из Anthropic сказал очень важную фразу: «Мы реально мониторим попадания в кеш prompt cache. Если уровень попаданий низкий, мы поднимаем тревогу или даже объявляем о критической ситуации SEV.»
Он также написал хорошую статью в X. Когда уровень попаданий в кеш высокий, происходят четыре вещи: Claude Code работает быстрее, снижаются издержки Anthropic, ваш лимит становится более долговечным, а длительные сессии кодирования — более реальны.
Но при низком уровне попаданий все страдают.
Трехуровневая архитектура: система, проект, диалог — слои накладываются
Итак, мотивация обеих сторон совпадает: Anthropic хочет, чтобы ваш уровень кеширования был выше, а вы — тоже. Единственное, что мешает — это мелкие привычки, которые незаметно «перестраивают» кеш.
Кеш основан на префиксном совпадении, то есть «подстроке».
Не вдаваясь в технические детали, достаточно понять: если в каком-то месте содержимое полностью совпадает с уже кешированным, Claude сможет повторно использовать эти токены.
Диалог начинается так:
По файлу Claude Code, новый диалог обычно так и происходит:
Первая итерация — без кеша. Системный prompt, контекст проекта (например CLAUDE.md, память, правила) и ваше первое сообщение обрабатываются заново и записываются в кеш.
Вторая итерация — все, что было в первой, уже кешировано. Claude обрабатывает только новые ответы и следующее сообщение. Стоимость этой части значительно ниже.
Третья — аналогично. Предыдущий диалог остается в кеше, только последний обмен обрабатывается заново.
Самая распространенная ловушка «разрыва»: переключение модели и окно в 1 час
Кеш делится на три слоя:
Из статьи Thariq:
Системный слой (System layer): включает базовые команды, определения инструментов (read, write, bash, grep, glob) и стиль вывода. Этот слой — глобальный кеш.
Проектный слой (Project layer): включает CLAUDE.md, память, правила проекта. Этот слой кешируется по проектам.
Диалоговый слой (Conversation): включает ответы и сообщения, растет с каждым обменом.
Если в середине диалога изменится системный или проектный слой, все придется кешировать заново. Это самое «дорогое» действие. Представьте: вы на 16-м сообщении, вдруг меняете системный prompt или делаете паузу в час — все токены с первого сообщения придется перерабатывать заново.
Это — самая распространенная ошибка.
Подписка Claude Code: TTL по умолчанию — 1 час.
Инженер создал собственную панель: просмотр чтения и создания кеша
API Claude: TTL по умолчанию — 5 минут. Можно повысить до часа за дополнительную плату.
Для любого плана субагенты — всегда 5 минут.
Чат на сайте Claude.ai: официально не задокументировано. Возможно, как и подписка, но я не проверял.
Несколько месяцев назад многие жаловались, что лимит быстро расходуется. Тогда казалось, что Anthropic тайно снизил TTL с 1 часа до 5 минут без уведомления. Но это не так — TTL Claude Code по-прежнему 1 час.
Проблема в том, что файлы Claude Code и API хранятся отдельно, и это вызывает путаницу.
Если вы активно используете Sub-agent или API, то 5 минут важны. Но для 95% пользователей Claude Code важен именно 1-часовой интервал.
Вот что реально полезно в повседневной работе:
Если прошло более часа, предыдущий кеш почти истек. Следующее сообщение — это новая сборка кеша. В такой ситуации лучше начать новую сессию, чем продолжать старую, которая «остыла». Обычно это дешевле.
Команда /compact или /clear сразу разрушает кеш, так что лучше делать это именно в момент перезагрузки.
Практическое правило: Session Handoff более экономичен, чем /compact
Я создал свой навык «передачи сессии» вместо /compact. Он подытоживает, что сделано, что осталось, какие файлы важны и где продолжить. Потом я выполняю /clear, вставляю этот итог — и продолжаю, как будто ничего не прерывалось.
Команда /compact иногда работает медленно. А этот «handoff» обычно занимает менее минуты.
Механизм кеширования на Claude.ai не очень подробно описан, но проекты (Projects) явно используют другую оптимизацию, отличную от обычных диалогов. Поэтому, если нужно вставить большие файлы, лучше помещать их в проект, а не в диалог.
Есть ситуации, которые без явных предупреждений полностью сбрасывают кеш:
Переключение модели: кеш зависит от префиксного совпадения, у каждого модели свой кеш. Переключая модель, вы теряете кеш и начинаете заново.
Режим «Opus plan»: он использует Opus в планировании и Sonnet в исполнении. Я рекомендовал его в видео по оптимизации токенов, и причина есть — при смене плана происходит смена модели, а значит, и сброс кеша. В долгосрочной перспективе это помогает продлить лимит, но важно знать, что именно происходит.
Редактирование CLAUDE.md в середине диалога: это допустимо, изменения не вступают в силу сразу — потребуется перезапуск. Поэтому текущий кеш не меняется.
На скриншоте — пример панели статистики токенов.
》Ссылка на оригинал