Básico
Spot
Opera con criptomonedas libremente
Margen
Multiplica tus beneficios con el apalancamiento
Convertir e Inversión automática
0 Fees
Opera cualquier volumen sin tarifas ni deslizamiento
ETF
Obtén exposición a posiciones apalancadas de forma sencilla
Trading premercado
Opera nuevos tokens antes de su listado
Contrato
Accede a cientos de contratos perpetuos
CFD
Oro
Plataforma global de activos tradicionales
Opciones
Hot
Opera con opciones estándar al estilo europeo
Cuenta unificada
Maximiza la eficacia de tu capital
Trading de prueba
Introducción al trading de futuros
Prepárate para operar con futuros
Eventos de futuros
Únete a eventos para ganar recompensas
Trading de prueba
Usa fondos virtuales para probar el trading sin asumir riesgos
Lanzamiento
CandyDrop
Acumula golosinas para ganar airdrops
Launchpool
Staking rápido, ¡gana nuevos tokens con potencial!
HODLer Airdrop
Holdea GT y consigue airdrops enormes gratis
Pre-IPOs
Accede al acceso completo a las OPV de acciones globales
Puntos Alpha
Opera activos on-chain y recibe airdrops
Puntos de futuros
Gana puntos de futuros y reclama recompensas de airdrop
Inversión
Simple Earn
Genera intereses con los tokens inactivos
Inversión automática
Invierte automáticamente de forma regular
Inversión dual
Aprovecha la volatilidad del mercado
Staking flexible
Gana recompensas con el staking flexible
Préstamo de criptomonedas
0 Fees
Usa tu cripto como garantía y pide otra en préstamo
Centro de préstamos
Centro de préstamos integral
Centro de patrimonio VIP
Planes de aumento patrimonial prémium
Gestión patrimonial privada
Asignación de activos prémium
Quant Fund
Estrategias cuantitativas de alto nivel
Staking
Haz staking de criptomonedas para ganar en productos PoS
Apalancamiento inteligente
Apalancamiento sin liquidación
Acuñación de GUSD
Acuña GUSD y gana rentabilidad de RWA
Promociones
Centro de actividades
Únete a actividades y gana recompensas
Referido
20 USDT
Invita amigos y gana por tus referidos
Programa de afiliados
Gana recompensas de comisión exclusivas
Gate Booster
Aumenta tu influencia y gana airdrops
Anuncio
Novedades de plataforma en tiempo real
Gate Blog
Artículos del sector de las criptomonedas
Servicios VIP
Grandes descuentos en tarifas
Gestión de activos
Solución integral para la gestión de activos
Institucional
Soluciones de activos digitales: empresas
Desarrolladores (API)
Conecta con el ecosistema de aplicaciones Gate
Transferencia bancaria OTC
Deposita y retira fiat
Programa de bróker
Reembolsos generosos mediante API
AI
Gate AI
Tu compañero de IA conversacional para todo
Gate AI Bot
Usa Gate AI directamente en tu aplicación social
GateClaw
Gate Blue Lobster, listo para usar
Gate for AI Agent
Infraestructura de IA, Gate MCP, Skills y CLI
Gate Skills Hub
+10 000 habilidades
De la oficina al trading, una biblioteca de habilidades todo en uno para sacar el máximo partido a la IA
GateRouter
Elige inteligentemente entre más de 40 modelos de IA, con 0% de costos adicionales
Claude Código Trucos para ahorrar dinero: los ingenieros ahorran 300 millones de tokens en una semana gracias a la caché, la clave está en no interrumpir
¿El límite de uso en conversaciones largas con Claude Code? El ingeniero Nate Herk revela que ahorra 300 millones de Tokens en una semana gracias a un mecanismo de caché, con un máximo diario de 91 millones. La clave no es cuántos programas escribes, sino cómo no "interrumpir" la caché, para que la repetición de contexto no siga costando más.
(Resumen previo: el proyecto open source badclaude, que acelera Claude code, fue notificado por infracción por Anthropic)
(Información adicional: ¡Claude Code ahora tiene función de tareas programadas en la nube! Sin encender la computadora, IA revisa PRs y actualiza automáticamente)
Índice de este artículo
Alternar
Muchos desarrolladores que usan Claude Code para programar, enfrentan que el uso de Tokens se agota rápidamente, casi como si fuera un flujo constante, y las conversaciones largas parecen un lujo.
Pero el influencer Nate Herk, que comparte trucos de IA en redes sociales, reveló en un tuit en X que el verdadero factor de costo no es la cantidad de código, sino si el sistema aprovecha bien el mecanismo de prompt caching. Él mismo ahorró más de 300 millones de Tokens en una semana, con un máximo diario de 91 millones: dado que el costo de Tokens en caché es solo el 10% del de Tokens normales, esto equivale a gastar solo 9 millones de Tokens en un día, casi "gratis" para extender la vida útil de las sesiones de programación.
Esta semana ahorré 300 millones de Tokens, con 91 millones en un solo día, y en una semana más de 300 millones.
No cambié ninguna configuración. Solo el prompt caching funciona en segundo plano normalmente.
Pero al entender qué es la caché y cómo evitar "romperla", en el mismo límite de uso, puedo mantener la conversación por más tiempo. Por eso, aquí comparto una guía básica de 80/20 para empezar con prompt caching en Claude Code, sin entrar en detalles profundos de API.
El costo de Tokens en caché es solo el 10% del de Tokens normales. 91 millones de Tokens en caché, en realidad, se cobran como unos 9 millones de Tokens.
La TTL (tiempo de vida) de la caché en la suscripción de Claude Code es de 1 hora; en la API, por defecto, 5 minutos; en Sub-agent, siempre 5 minutos.
La caché se divide en tres capas: sistema, proyecto y conversación.
Cambiar de modelo en medio de una sesión rompe la caché, incluso si activas el modo "opus plan".
El costo de la caché es solo el 10%, 91 millones de Tokens equivalen a 9 millones
Cada Token en caché cuesta solo el 10% del Token de entrada normal.
Por eso, cuando mi panel muestra que en un día se usaron 91 millones de Tokens en caché, en realidad solo se cobraron unos 9 millones. Esto explica por qué, en uso prolongado de Claude Code, la conversación parece casi "gratis" y se extiende más.
En el panel hay dos números importantes:
Cache create: el costo único de escribir contenido en la caché. Comienza a usarse en la siguiente interacción.
Cache read: los Tokens reutilizados desde la caché por Claude, como tu CLAUDE.md, definiciones de herramientas, mensajes anteriores, etc. Comparado con procesar todo desde cero, cuesta solo una décima parte.
Si tu número de Cache read es alto, significa que estás aprovechando bien la caché; si es bajo, estás pagando varias veces por el mismo contexto.
Thariq de Anthropic dijo una frase que me quedó grabada: "Monitorizamos la tasa de aciertos del prompt cache; si baja demasiado, activamos alertas, e incluso podemos declarar un incidente de nivel SEV."
También escribió un buen artículo en X. Cuando la tasa de aciertos es alta, pasan cuatro cosas: Claude Code se siente más rápido, los costos de servicio de Anthropic bajan, tu cuota de suscripción dura más, y las sesiones largas de codificación son más viables.
Pero si la tasa de aciertos es baja, todos pierden.
Arquitectura de tres capas: sistema, proyecto, conversación, apiladas en capas
Por eso, los incentivos de ambas partes son iguales: Anthropic quiere que tu tasa de aciertos sea mayor, tú también. Lo que realmente puede perjudicarte son pequeños hábitos que parecen inofensivos, pero que en realidad reconstruyen la caché sin que te des cuenta.
La caché depende del "prefix matching", es decir, "coincidencia de prefijos".
No necesitas profundizar en detalles técnicos: solo entender que, si el contenido antes de cierta posición coincide exactamente con lo que ya está en caché, Claude puede reutilizar esos Tokens.
Una sesión nueva generalmente funciona así:
Según los archivos de Claude Code, una sesión completamente nueva suele seguir este flujo:
Primera ronda: sin caché. El prompt del sistema, el contexto del proyecto (como CLAUDE.md, memoria, reglas), y tu primer mensaje, se procesan y almacenan en caché.
Segunda ronda: todo lo de la primera ya está en caché. Claude solo procesa tu nueva respuesta y el siguiente mensaje. El costo de esta ronda es mucho menor.
Tercera ronda: igual, lo anterior en caché, solo se procesa lo nuevo.
La trampa más común: corte y pausa por cambio de modelo o ventana de 1 hora
La caché tiene tres capas:
De acuerdo a Thariq en su artículo:
Capa del sistema (System layer): incluye instrucciones básicas, definiciones de herramientas (read, write, bash, grep, glob) y estilos de salida. Es la caché global.
Capa del proyecto (Project layer): incluye CLAUDE.md, memoria, reglas del proyecto. Se cachea por proyecto.
Capa de conversación: incluye respuestas y mensajes, que crecen con cada ronda.
Si en medio de la sesión cambias alguna de estas, toda la caché debe reconstruirse desde cero. Es la operación más "costosa". Imagina que estás en la ronda 16, y de repente cambias el prompt del sistema, o pasa una hora, entonces todos los Tokens desde la primera ronda deben volver a procesarse.
Este es el error más común.
La suscripción de Claude Code: TTL por defecto de 1 hora.
Panel propio del ingeniero: revisar Cache Read y Create
API de Claude: TTL por defecto de 5 minutos. Puedes pagar más para extenderlo a 1 hora.
Para Sub-agent en cualquier plan: siempre 5 minutos.
Chat en la web de Claude.ai: no hay registro oficial claro. Podría ser igual que la suscripción, pero no confirmado.
Hace unos meses, muchos se quejaron de que la cuota de Claude se agotaba muy rápido. Algunos pensaron que Anthropic había reducido silenciosamente el TTL de 1 hora a 5 minutos sin avisar. Pero no, la realidad es que el TTL de Claude Code sigue siendo 1 hora.
El problema es que los archivos de Claude Code y la API están separados, y eso genera confusión.
Si haces muchas tareas con Sub-agent o usas la API directamente, ese 5 minutos importa mucho. Pero para el 95% de usuarios de Claude Code, lo que importa en realidad es esa ventana de 1 hora.
Lo que sigue aquí es lo que realmente uso en la práctica diaria.
Si pasaste más de una hora sin actividad, la caché anterior ya expiró. La próxima respuesta reconstruirá la caché desde cero. En ese caso, en lugar de seguir con una sesión "enfriada", es mejor hacer una transferencia clara y empezar una nueva, generalmente más barato.
/compact o /clear rompen la caché, así que mejor usarlos para reconstruirla en ese momento.
Método práctico: Session Handoff ahorra más que /compact
Yo mismo desarrollé una técnica de "transferencia de sesión" para reemplazar /compact. Resume qué se ha hecho, qué decisiones pendientes hay, qué archivos son más importantes, y desde dónde continuar. Luego ejecuto /clear, pego ese resumen y sigo sin interrupciones.
El comando /compact a veces también es lento. La técnica de Session Handoff suele completarse en menos de un minuto.
El mecanismo de caché en Claude.ai no tiene una explicación oficial muy detallada, pero los Projects claramente usan una optimización distinta a la de las conversaciones normales. Por eso, si quieres pegar archivos grandes, mejor colócalos en un Project, no en la conversación.
Hay cosas que, sin aviso, reconstruyen toda la caché:
Cambio de modelo: porque la caché depende del "prefix matching", y cada modelo tiene su propia caché. Al cambiar de modelo, la próxima solicitud no encuentra nada en caché y debe leer toda la historia.
Modo "Opus plan": este modo usa Opus en la fase de planificación y Sonnet en la ejecución. Lo recomendé en algunos videos de optimización de tokens, y tiene su razón. Pero hay que entender que cada cambio de plan en realidad es un cambio de modelo, y eso implica reconstruir la caché. A largo plazo, ayuda a extender la cuota, pero hay que entender qué pasa en el fondo.
Editar CLAUDE.md en medio de la conversación: se puede hacer, pero no tiene efecto inmediato. La caché en uso no se actualiza hasta la próxima reinicialización.
La captura de pantalla que mostré antes proviene de un panel de control de tokens.