“Fable 5 este precio está muy por encima del salario diario de un programador chino. Escribir código y consumir cientos de miles de tokens al día ya es bastante ahorrativo, y luego ves la factura de varios miles de RMB”.

Esta es la realidad que está ocurriendo. Según los últimos datos, el dinero que Anthropic gasta en potencia de cálculo ya es 2,3 veces sus gastos salariales. Considerando el costo total de un ingeniero senior de 224.000 dólares, el gasto en potencia de cálculo por ingeniero al año en Anthropic es de aproximadamente 515.000 dólares. Es decir: las personas aún no son tan caras como los modelos.

Ante facturas así, hasta el propio Claude tiene que empezar a ahorrar tokens.

Claude Code: Quemar tokens por la ilusión de "soy muy productivo"

Recientemente, ha surgido una nueva palabra en la industria: Token Apocalypse (El Apocalipsis de los Tokens).

Desde token maxing hasta token apocalypse, esto indica que realmente está ocurriendo un cambio de paradigma muy grande en la industria de la IA. En marzo y abril de este año, todos presumían de cuántos tokens usaban, incluso lo consideraban una clasificación. Pero usar IA no significa automáticamente ahorrar dinero, así que ahora se enfatiza más el costo por token.

Lo más sutil es que los grandes modelos están ampliando muchos trabajos que originalmente no necesitaban IA. Ahora no queremos leer PDFs nosotros mismos, ni leer textos largos, todo lo queremos que lo resuma la IA. O convertir estas cosas en diapositivas con IA y luego pasárselas a otros, que quizás usen IA para leer esas diapositivas... La IA parece estar inyectando valor a trabajos que ya eran bastante superficiales, al mismo tiempo que eleva silenciosamente la factura.

Hoy en día, la pérdida de control de costos se ha convertido en la norma. Empresas como Amazon, Adobe, Atlassian, Citigroup, etc., han comenzado a implementar controles estrictos sobre el uso de la IA:

Limitar el nivel de los modelos: A algunos empleados se les prohíbe usar modelos de gama alta como Claude Opus y se ven obligados a usar versiones más baratas;
Establecer límites personales: Uber ha establecido un límite mensual de 1500 dólares en tokens para cada ingeniero;
Revocar permisos por completo: Instituciones como Citibank han restringido completamente el acceso a herramientas de IA avanzadas, e incluso a los empleados que no cumplen con los objetivos de uso se les revoca la cuenta corporativa. Antes de esto, el CTO de Uber admitió que la empresa agotó el presupuesto de IA del año en pocos meses. Walmart también ha dejado de usar algunas herramientas recientemente.

Las grandes empresas o buscan formas de ahorrar dinero por todos lados, o directamente frenan el desperdicio de tokens. Por lo tanto, los empleados reciben mensajes extremadamente contradictorios: por un lado, "la IA puede multiplicar tu eficiencia por 100, debes usarla", y por otro, "no lleves a la empresa a la quiebra".

Este es también el problema más típico de la primera ronda de popularización de las herramientas de IA: cuando se lanzan las herramientas, no hay suficientes barreras para evitar que las empresas gasten millones de dólares en modelos de lenguaje grande, ni mecanismos para advertir a los equipos que los tokens se están agotando rápidamente. Ya sean chatbots o herramientas de codificación, muchos productos priorizan "hacer que funcione" primero, dejando para más tarde la gestión de costos, las cuotas de uso, la clasificación de modelos y la gestión del contexto.

Pero Claude Code no es esencialmente una herramienta de eficiencia, sino una herramienta de marketing.

Su objetivo de diseño es muy claro: hacerte sentir que estás siendo productivo. Boris, el responsable del proyecto Claude Code, pensó inicialmente al hacer este producto: "Si el modelo se vuelve lo suficientemente inteligente, ¿cómo será el código? ¿Cómo quiero usar estas cosas?" — El punto de partida no es "cómo ayudar a los desarrolladores a ahorrar tokens", sino "cómo mostrar la inteligencia del modelo".

Anthropic está dispuesta a quemar una gran cantidad de tokens por esta "sensación" — ya sea tu dinero o el suyo propio. Gastar 200 dólares en cinco minutos no es un accidente para Claude Code, es un diseño. Su lógica subyacente es: si se puede resolver un problema quemando más tokens, nunca se busca una forma de ahorrar tokens. Todos los sub-agentes, todas las animaciones de UI llamativas, todos los razonamientos extensos, no son para la eficiencia, sino para que cuando mires la pantalla, pienses "este modelo es muy inteligente, muy capaz".

Detrás de esto hay un ciclo de marketing cuidadosamente diseñado: quemas muchos tokens, obtienes la sensación de "productividad", entonces piensas que Claude es bueno y continúas usándolo. Anthropic está dispuesta incluso a asumir el costo de muchos tokens para obtener esta validación emocional. Esta es también la razón por la que su aplicación de escritorio está claramente sub-invertida — el objetivo de Claude Code nunca fue ser una buena herramienta, sino convertirse en la "mejor ventana de exhibición" de las capacidades del modelo de Anthropic.

Y precisamente esta filosofía de diseño de "quemar tokens por experiencia" hace que Claude esté muy por detrás de OpenAI en eficiencia de tokens.

OpenAI siempre ha estado presionando para reducir tokens. Desde la compresión de las trazas de razonamiento hasta la optimización de la eficiencia del modelo en sí, su filosofía es: usar menos tokens para hacer el mismo trabajo. Codex 5.5 es el mejor ejemplo.

A pesar de que modelos como Fable 5 son muy inteligentes, en comparación con otros modelos, su eficiencia no es alta. La siguiente imagen de Deep SWE lo explica muy bien. Si se comparan los mismos lotes de modelos, es aún más evidente: GPT-5.5 medium usó solo 20,000 tokens para obtener una puntuación sorprendente; mientras que Opus 4.8 usó 50,000 tokens y obtuvo una puntuación más baja.

Esta es la representación más directa de dos líneas: la industria está en pánico, Claude quema, OpenAI ahorra. Y la siguiente pregunta es: dado que hay que reducir costos, ¿qué es lo primero que se debe recortar? La respuesta: esos prompts que se han acumulado durante demasiado tiempo.

La deuda de Prompt de Claude Code: Cuanto más acumulas, más debes

En su última charla, Anthropic afirmó que ya han eliminado el 80% de los prompts de sistema de Claude Code.

Tariq Shihipar, miembro del equipo técnico de Anthropic, explicó que esto refleja un cambio fundamental en la forma de guiar a los modelos de IA. Antes, se pensaba que cuantas más instrucciones y ejemplos, mejor sería el rendimiento del modelo; pero ahora esa lógica ya no se sostiene. El nuevo modelo Fable 5 tiene más imaginación que los ejemplos que ellos mismos dan, y los ejemplos se han convertido en una limitación.

Esto, por supuesto, tiene un componente de marketing: él elogió la capacidad de Fable: "Los ejemplos tienden a limitar al modelo, porque en realidad tiene más imaginación que los ejemplos que damos". Pero un hecho es innegable: hasta la propia Anthropic ha empezado a recortar los prompts de sistema.

Entonces, ¿por qué antes se necesitaban tantos prompts?

En los últimos uno o dos años, se ha formado un pensamiento inercial en el mundo de la codificación con IA: cuanto más contexto, mejor; cuantas más descripciones de herramientas, mejor; cuanto más completo sea el prompt de sistema, mejor. ¿El modelo no sabe cómo organizar el proyecto? Escribe Agents.md. ¿El modelo no sabe cómo usar la herramienta? Escribe tool descriptions. ¿El modelo no es lo suficientemente proactivo? Añade guías de comportamiento. ¿El modelo no es lo suficientemente estable? Sigue añadiendo restricciones al prompt de sistema.

No se puede negar que los prompts de sistema fueron una vez la competencia central de las herramientas de codificación con IA. Hacer pequeños ajustes en el prompt de un LLM puede traer mejoras significativas en el rendimiento. Si el mismo modelo se siente diferente en Codex, Cursor, OpenCode y Copilot, casi con certeza se debe a diferencias sutiles en el prompting.

Esta es también la razón por la que Cursor pasó mucho tiempo probando prompts de sistema, haciendo pruebas A/B, ajustando la forma de prompting para diferentes modelos. En comparación con usar Opus en Claude Code, el harness de Cursor puede mejorar significativamente el rendimiento del modelo, con algunas pruebas de referencia midiendo mejoras de hasta el 10% al 30%. La diferencia clave a menudo radica en esos pocos fragmentos de prompt.

Pero el problema es que mientras el prompt sea útil, el equipo seguirá añadiendo cosas. Si a un modelo le gusta usar herramientas de manera incorrecta, se añade una regla; si un modelo no es lo suficientemente proactivo, se añade un estímulo; si un modelo busca demasiado, se añade una restricción; si un modelo no entiende el contexto del proyecto, se añade otro archivo markdown. Cada adición tiene una razón, pero con el tiempo, el prompt de sistema se convierte en una gran carga de contexto permanente.

El problema es que el prompt de sistema no es gratuito. Cada vez que se invoca, debe ser leído, facturado y ocupa contexto.

Después de que Claude Code integrara todas las herramientas y funciones, el prompt de sistema llegó a inflarse hasta 65,000 tokens; incluso con la mayoría de las funciones desactivadas, todavía tiene 12,000 tokens. En otras palabras, antes de que el modelo escriba una línea de código, ya lleva un manual de instrucciones. En comparación, Pi arranca con menos de mil tokens de contexto.

Lo más problemático es que la deuda de prompt es más insidiosa que la deuda de código.

El código viejo suele exponerse al modificar funciones, ejecutar pruebas o manejar errores. El prompt viejo, en cambio, puede hacer que el modelo simplemente empeore silenciosamente. El usuario ve que "Claude Code últimamente no es tan inteligente como antes" o "el nuevo modelo no es tan potente como lo promocionan", pero la verdadera razón podría ser que el antiguo prompt de sistema no sigue el ritmo del nuevo modelo.

Cuando el prompt pasa de ser una ventaja competitiva a una carga, Anthropic elige eliminar el 80%, lo que también puede mejorar aún más la eficiencia de los tokens.

El "impuesto a la palabrería" de Claude: Cada palabra de más, cuesta más

Claude Code tiene demasiada palabrería.

Este año, un plugin llamado Caveman se hizo viral rápidamente, especializado en resolver este problema. Su nombre se traduce literalmente como "hombre de las cavernas", que significa hablar como un hombre primitivo: sin cortesías, sin gramática superflua, sin palabras de relleno, solo el significado central.

A primera vista, suena como una broma. Pero una vez que lo entiendes, te das cuenta de que resuelve un problema muy real en los LLM: demasiada palabrería, demasiados tokens y costos innecesariamente altos.

Y su origen fue precisamente Claude Code.

"Creé Caveman a principios de abril porque estaba usando mucho Claude Code y noté que gran parte de mi gasto en tokens se desperdiciaba en texto innecesario: saludos, formulaciones vagas, palabras de transición y esas expresiones conversacionales que no son realmente importantes en el bucle del agente", dijo Julius Brussee, creador de Caveman.

Las evaluaciones de Brussee muestran que Caveman puede reducir entre un 65% y un 75% los tokens de salida en comparación con la salida predeterminada, y sigue siendo más efectivo que una simple instrucción de "sé conciso". Comprime principalmente el lenguaje circundante, sin afectar partes que requieren precisión como código, comandos, rutas, URL, nombres de funciones.

Se informa que Shayne Sweeney, director de ingeniería de OpenAI, también contribuyó con código al proyecto para apoyar a Codex.

Más interesante aún, OpenAI ya había aplicado este modo de lenguaje al proceso de razonamiento.

Algunas trazas de razonamiento filtradas (no el resumen de razonamiento mostrado externamente) dejaron ver indicios. El contenido no se parece al inglés común, sino a una taquigrafía de ingeniería comprimida:

"Use core new nodes. Need infer. Need add VAE encode for images. Try. Try period."

Estas frases parecen divertidas e incluso un poco desordenadas, pero su enfoque no está en la legibilidad, sino en la eficiencia de tokens. Cuando el modelo razona internamente, no necesita mantener la cortesía, la completitud y la fluidez como cuando habla con un usuario. Solo necesita conservar la acción, el objeto, el juicio y el siguiente paso. En otras palabras, mientras la respuesta final sea normal, el modelo internamente puede usar un lenguaje más corto, más tosco y que ahorre más tokens para completar el razonamiento, buscando frenéticamente la eficiencia de tokens.

Esto es incluso más útil que en la fase de escritura de prompts. Comprimir los tokens de razonamiento tiene una recompensa mayor, porque el agente ejecuta múltiples pasos, y el pensamiento del paso anterior se convierte en la entrada del siguiente paso. Cada vez que el modelo "piensa" menos, no solo ahorra esos pocos tokens actuales, sino también los gastos repetidos en toda la cadena de ejecución posterior.

Esta es una diferencia clara entre las rutas de OpenAI y Claude.

Claude siempre ha sido mejor conversando y también se siente más como un asistente que piensa y se expresa en lenguaje completo. Con solo mirar que sus trazas de razonamiento son mucho más largas, se puede adivinar que probablemente usa inglés común. Sus salidas y razonamientos suelen ser más largos, por lo que dependen más de ventanas de contexto grandes para contener ese contenido.

Esta es también la razón por la que Claude usa por defecto una ventana de contexto de 1 millón de tokens. Muchos piensan que es para poder cargar bases de código más grandes, pero la razón es más simple: Claude genera cosas demasiado largas, sin una ventana tan grande no se pueden contener. Incluso son malos en la compactación; cuando restauras un hilo antiguo, Claude sugiere que no mantengas el contexto completo, sino que intentes compactarlo. Porque no conservan las trazas de razonamiento — de hecho, las eliminan después de 10 a 20 minutos, porque la eficiencia de los tokens de razonamiento es demasiado baja y no vale la pena mantenerlos, de lo contrario los costos serían absurdamente inaceptables.

Mientras que la ventana de contexto de tokens de los modelos de OpenAI es de aproximadamente 200,000 o menos, pero desde el principio logran la compresión a través de este lenguaje breve.

Un detalle que vale la pena reflexionar: si Anthropic solucionara el problema del "exceso de palabrería", sus ingresos disminuirían notablemente. Si los desarrolladores pudieran hacer el mismo trabajo con el modelo pero generando menos tokens, sería dinero que no ganarían.

Fuente: InfoQ

Aviso de riesgo y términos de exención de responsabilidad

        El mercado tiene riesgos, la inversión debe ser cautelosa. Este artículo no constituye un consejo de inversión personal y no tiene en cuenta los objetivos de inversión, situación financiera o necesidades particulares de cada usuario. Los usuarios deben considerar si las opiniones, puntos de vista o conclusiones de este artículo se ajustan a su situación específica. La inversión basada en esto es bajo su propia responsabilidad.

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
gStocksTokenizedStocksLive
1,08M Popularidad
#
StrongNonfarmPayrollsRekindleRateHikeFear
1,03M Popularidad
#
IsraelStrikesIranBTCPlunges
67,85K Popularidad
#
PredictWorldCupShare20000U
193,5K Popularidad
#
ETHBreaks1700
120,76M Popularidad

Fijado

Claude Code elimina el 80% de los prompts de un plumazo, Anthropic da un ejemplo con Fable 5: la "reducción de costos" en la industria de IA apenas comienza.

Claude Code: Quemar tokens por la ilusión de "soy muy productivo"

La deuda de Prompt de Claude Code: Cuanto más acumulas, más debes

El "impuesto a la palabrería" de Claude: Cada palabra de más, cuesta más

Temas de actualidad

gStocksTokenizedStocksLive

StrongNonfarmPayrollsRekindleRateHikeFear

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

ETHBreaks1700

Fijado