¿El límite de uso en conversaciones largas con Claude Code? El ingeniero Nate Herk revela que ahorra 300 millones de Tokens en una semana gracias a un mecanismo de caché, con un máximo diario de 91 millones. La clave no es cuántos programas escribes, sino cómo no "interrumpir" la caché, para que la repetición de contexto no siga costando más.
(Resumen previo: el proyecto open source badclaude, que acelera Claude code, fue notificado por infracción por Anthropic)
(Información adicional: ¡Claude Code ahora tiene función de tareas programadas en la nube! Sin encender la computadora, IA revisa PRs y actualiza automáticamente)

Índice de este artículo

Alternar

El costo de la caché es solo el 10%, 91 millones de Tokens equivalen a 9 millones
Arquitectura de tres capas: sistema, proyecto, conversación, apiladas en capas
La trampa más común de "corte y pausa": cambio de modelo y ventana de 1 hora
Panel de control propio del ingeniero: revisar lectura y creación de caché
Método práctico: Session Handoff ahorra más que /compact

Muchos desarrolladores que usan Claude Code para programar, enfrentan que el uso de Tokens se agota rápidamente, casi como si fuera un flujo constante, y las conversaciones largas parecen un lujo.

Pero el influencer Nate Herk, que comparte trucos de IA en redes sociales, reveló en un tuit en X que el verdadero factor de costo no es la cantidad de código, sino si el sistema aprovecha bien el mecanismo de prompt caching. Él mismo ahorró más de 300 millones de Tokens en una semana, con un máximo diario de 91 millones: dado que el costo de Tokens en caché es solo el 10% del de Tokens normales, esto equivale a gastar solo 9 millones de Tokens en un día, casi "gratis" para extender la vida útil de las sesiones de programación.

Esta semana ahorré 300 millones de Tokens, con 91 millones en un solo día, y en una semana más de 300 millones.

No cambié ninguna configuración. Solo el prompt caching funciona en segundo plano normalmente.

Pero al entender qué es la caché y cómo evitar "romperla", en el mismo límite de uso, puedo mantener la conversación por más tiempo. Por eso, aquí comparto una guía básica de 80/20 para empezar con prompt caching en Claude Code, sin entrar en detalles profundos de API.

El costo de Tokens en caché es solo el 10% del de Tokens normales. 91 millones de Tokens en caché, en realidad, se cobran como unos 9 millones de Tokens.

La TTL (tiempo de vida) de la caché en la suscripción de Claude Code es de 1 hora; en la API, por defecto, 5 minutos; en Sub-agent, siempre 5 minutos.

La caché se divide en tres capas: sistema, proyecto y conversación.

Cambiar de modelo en medio de una sesión rompe la caché, incluso si activas el modo "opus plan".

los agentes de codificación ahora necesitan cajas de cristal
jianshuo/ccglass

111 estrellas en github
creado ayer
mit + javascript
proxy local + panel web para claude code, codex, deepseek-tui, y kimi
muestra el prompt completo, esquemas de herramientas, historial de mensajes, tokens/costo y… pic.twitter.com/Wot5SFV16N
— Beau Johnson (@BeauJohnson89) 24 de mayo de 2026

El costo de la caché es solo el 10%, 91 millones de Tokens equivalen a 9 millones

Cada Token en caché cuesta solo el 10% del Token de entrada normal.

Por eso, cuando mi panel muestra que en un día se usaron 91 millones de Tokens en caché, en realidad solo se cobraron unos 9 millones. Esto explica por qué, en uso prolongado de Claude Code, la conversación parece casi "gratis" y se extiende más.

En el panel hay dos números importantes:

Cache create: el costo único de escribir contenido en la caché. Comienza a usarse en la siguiente interacción.
Cache read: los Tokens reutilizados desde la caché por Claude, como tu CLAUDE.md, definiciones de herramientas, mensajes anteriores, etc. Comparado con procesar todo desde cero, cuesta solo una décima parte.

Si tu número de Cache read es alto, significa que estás aprovechando bien la caché; si es bajo, estás pagando varias veces por el mismo contexto.

Thariq de Anthropic dijo una frase que me quedó grabada: "Monitorizamos la tasa de aciertos del prompt cache; si baja demasiado, activamos alertas, e incluso podemos declarar un incidente de nivel SEV."

También escribió un buen artículo en X. Cuando la tasa de aciertos es alta, pasan cuatro cosas: Claude Code se siente más rápido, los costos de servicio de Anthropic bajan, tu cuota de suscripción dura más, y las sesiones largas de codificación son más viables.

Pero si la tasa de aciertos es baja, todos pierden.

Arquitectura de tres capas: sistema, proyecto, conversación, apiladas en capas

Por eso, los incentivos de ambas partes son iguales: Anthropic quiere que tu tasa de aciertos sea mayor, tú también. Lo que realmente puede perjudicarte son pequeños hábitos que parecen inofensivos, pero que en realidad reconstruyen la caché sin que te des cuenta.

La caché depende del "prefix matching", es decir, "coincidencia de prefijos".

No necesitas profundizar en detalles técnicos: solo entender que, si el contenido antes de cierta posición coincide exactamente con lo que ya está en caché, Claude puede reutilizar esos Tokens.

Una sesión nueva generalmente funciona así:

Según los archivos de Claude Code, una sesión completamente nueva suele seguir este flujo:

Primera ronda: sin caché. El prompt del sistema, el contexto del proyecto (como CLAUDE.md, memoria, reglas), y tu primer mensaje, se procesan y almacenan en caché.
Segunda ronda: todo lo de la primera ya está en caché. Claude solo procesa tu nueva respuesta y el siguiente mensaje. El costo de esta ronda es mucho menor.
Tercera ronda: igual, lo anterior en caché, solo se procesa lo nuevo.

La trampa más común: corte y pausa por cambio de modelo o ventana de 1 hora

La caché tiene tres capas:

De acuerdo a Thariq en su artículo:

Capa del sistema (System layer): incluye instrucciones básicas, definiciones de herramientas (read, write, bash, grep, glob) y estilos de salida. Es la caché global.
Capa del proyecto (Project layer): incluye CLAUDE.md, memoria, reglas del proyecto. Se cachea por proyecto.
Capa de conversación: incluye respuestas y mensajes, que crecen con cada ronda.

Si en medio de la sesión cambias alguna de estas, toda la caché debe reconstruirse desde cero. Es la operación más "costosa". Imagina que estás en la ronda 16, y de repente cambias el prompt del sistema, o pasa una hora, entonces todos los Tokens desde la primera ronda deben volver a procesarse.

Este es el error más común.

La suscripción de Claude Code: TTL por defecto de 1 hora.

Panel propio del ingeniero: revisar Cache Read y Create

API de Claude: TTL por defecto de 5 minutos. Puedes pagar más para extenderlo a 1 hora.
Para Sub-agent en cualquier plan: siempre 5 minutos.

Chat en la web de Claude.ai: no hay registro oficial claro. Podría ser igual que la suscripción, pero no confirmado.

Hace unos meses, muchos se quejaron de que la cuota de Claude se agotaba muy rápido. Algunos pensaron que Anthropic había reducido silenciosamente el TTL de 1 hora a 5 minutos sin avisar. Pero no, la realidad es que el TTL de Claude Code sigue siendo 1 hora.

El problema es que los archivos de Claude Code y la API están separados, y eso genera confusión.

Si haces muchas tareas con Sub-agent o usas la API directamente, ese 5 minutos importa mucho. Pero para el 95% de usuarios de Claude Code, lo que importa en realidad es esa ventana de 1 hora.

Lo que sigue aquí es lo que realmente uso en la práctica diaria.

Si pasaste más de una hora sin actividad, la caché anterior ya expiró. La próxima respuesta reconstruirá la caché desde cero. En ese caso, en lugar de seguir con una sesión "enfriada", es mejor hacer una transferencia clara y empezar una nueva, generalmente más barato.

/compact o /clear rompen la caché, así que mejor usarlos para reconstruirla en ese momento.

Método práctico: Session Handoff ahorra más que /compact

Yo mismo desarrollé una técnica de "transferencia de sesión" para reemplazar /compact. Resume qué se ha hecho, qué decisiones pendientes hay, qué archivos son más importantes, y desde dónde continuar. Luego ejecuto /clear, pego ese resumen y sigo sin interrupciones.

El comando /compact a veces también es lento. La técnica de Session Handoff suele completarse en menos de un minuto.

El mecanismo de caché en Claude.ai no tiene una explicación oficial muy detallada, pero los Projects claramente usan una optimización distinta a la de las conversaciones normales. Por eso, si quieres pegar archivos grandes, mejor colócalos en un Project, no en la conversación.

Hay cosas que, sin aviso, reconstruyen toda la caché:

Cambio de modelo: porque la caché depende del "prefix matching", y cada modelo tiene su propia caché. Al cambiar de modelo, la próxima solicitud no encuentra nada en caché y debe leer toda la historia.
Modo "Opus plan": este modo usa Opus en la fase de planificación y Sonnet en la ejecución. Lo recomendé en algunos videos de optimización de tokens, y tiene su razón. Pero hay que entender que cada cambio de plan en realidad es un cambio de modelo, y eso implica reconstruir la caché. A largo plazo, ayuda a extender la cuota, pero hay que entender qué pasa en el fondo.

Editar CLAUDE.md en medio de la conversación: se puede hacer, pero no tiene efecto inmediato. La caché en uso no se actualiza hasta la próxima reinicialización.

La captura de pantalla que mostré antes proviene de un panel de control de tokens.

https://github.com/nateherkai/token-dashboard
Este es un repositorio simple en GitHub. Le pasas el enlace a Claude Code, y en local en localhost lo despliega, lee todos tus registros pasados, y no empieza desde cero. Así puedes ver input, output, creación y lectura de caché diarios.
Solo que, ojo, ese panel solo muestra los Tokens en tu dispositivo local. Si cambias de PC a portátil, los números no coinciden exactamente. Cada dispositivo tiene su propia estadística.
La caché de prompt caching es un tema muy profundo. La publicación de Thariq explica mucho más, si quieres entender en detalle, vale la pena leerla.
Pero no necesitas entender todo para beneficiarte. Solo dominar el 80/20: Tokens en caché son 10 veces más baratos que Tokens normales; TTL de Claude Code es 1 hora; cambiar de modelo rompe la caché; hacer transferencias claras entre tareas suele ser más barato que dejar que una sesión vieja "expira" y seguir.

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
TradfiTradingChallenge
345.55K Popularidad
#
PlatinumCardCreatorExclusive
126.88K Popularidad
#
IsraelStrikesIranBTCPlunges
49.09K Popularidad
#
#DailyPolymarketHotspot
1.05M Popularidad
#
GateSquarePizzaDay
665.77K Popularidad

Fijado

Claude Código Trucos para ahorrar dinero: los ingenieros ahorran 300 millones de tokens en una semana gracias a la caché, la clave está en no interrumpir

El costo de la caché es solo el 10%, 91 millones de Tokens equivalen a 9 millones

Arquitectura de tres capas: sistema, proyecto, conversación, apiladas en capas

La trampa más común: corte y pausa por cambio de modelo o ventana de 1 hora

Panel propio del ingeniero: revisar Cache Read y Create

Método práctico: Session Handoff ahorra más que /compact

Temas de actualidad

TradfiTradingChallenge

PlatinumCardCreatorExclusive

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

GateSquarePizzaDay

Fijado