Tienes a un Agente de IA ayudándote a arreglar un error en el código. Abre el proyecto, lee 20 archivos, hace algunos cambios, ejecuta las pruebas, no pasa, vuelve a modificar, vuelve a correr, todavía no pasa… tras varias rondas, finalmente—sigue sin arreglarse.

Apagas la computadora, respiras aliviado. Luego recibes la factura de la API.

Los números anteriores pueden hacerte llevarte un susto—el costo de que un Agente de IA arregle bugs de forma autónoma en la API oficial en el extranjero, suele consumir más de un millón de tokens por tarea no resuelta, con costos que alcanzan de veinte a más de cien dólares.

En abril de 2026, un artículo de investigación publicado conjuntamente por Stanford, MIT, Michigan y otras instituciones, abrió por primera vez la “caja negra” del consumo en tareas de código de los Agentes de IA—donde exactamente se va el dinero, si vale la pena, y si se puede predecir con anticipación, las respuestas son impactantes.

Primera conclusión: El gasto en escritura de código por parte del Agente es 1000 veces mayor que en una conversación normal con IA

Quizá pienses: ¿No sería lo mismo que pagar por que la IA te ayude a escribir código o que te hable de código, no?

El estudio muestra que:

El consumo de tokens en tareas de codificación con Agentes es aproximadamente 1000 veces mayor que en preguntas y respuestas de código o razonamiento sobre código.

Una diferencia de tres órdenes de magnitud completas.

¿Pero por qué? El artículo señala un hecho: el dinero no se gasta en “escribir código”, sino en “leer código”.

Aquí, “leer” no significa que un humano lea el código, sino que el Agente, en su proceso de trabajo, necesita constantemente alimentar al modelo con todo el contexto del proyecto, registros históricos, mensajes de error, contenido de archivos—todo de una vez. Cada ronda adicional de diálogo hace que ese contexto se vuelva más largo; y el modelo cobra por tokens—cuanto más alimentes, más pagas.

Por ejemplo: es como contratar a un mecánico que, antes de usar la llave, te pide que le leas toda la planta arquitectónica del edificio—leer planos cuesta mucho más que apretar un tornillo.

El estudio resume este fenómeno en una frase: el costo que impulsa al Agente se debe a un crecimiento exponencial en los tokens de entrada, no en los de salida.

Segunda conclusión: La misma falla, ejecutada dos veces, puede costar el doble—y cuanto más cara sea, más inestable

Lo que también complica las cosas es la aleatoriedad.

Los investigadores hicieron que el mismo Agente corriera la misma tarea 4 veces, y encontraron que:

Entre tareas diferentes, la más cara consume aproximadamente 7 millones de tokens más que la más barata (Figura 2a)

En múltiples ejecuciones con el mismo modelo y tarea, la más costosa puede ser el doble que la más económica (Figura 2b)

Y si comparas diferentes modelos en la misma tarea, la diferencia entre el mayor y menor consumo puede llegar hasta 30 veces

El último número es especialmente relevante: significa que la diferencia de costo entre usar el modelo correcto o uno equivocado no es “un poco más caro”, sino “una diferencia de órdenes de magnitud”.

Y aún más impactante: gastar más no significa hacer mejor el trabajo.

El estudio revela una curva en forma de “U” invertida:

El nivel de costo y la precisión tienen una tendencia: baja precisión en costos bajos (posible falta de inversión), precisión máxima en costos medios, y en costos altos, la precisión no mejora y puede disminuir—entrando en una “zona de saturación”.

¿Pero por qué? La respuesta, según el análisis de las operaciones del Agente, es que:

En operaciones de alto costo, el Agente dedica mucho tiempo a “trabajo repetitivo”.

Se encontró que, en esas ejecuciones costosas, aproximadamente el 50% de las operaciones de revisión y modificación de archivos son repetitivas—es decir, el Agente lee el mismo archivo varias veces, modifica la misma línea varias veces, como alguien que da vueltas en la habitación, cada vez más mareado.

El dinero no se gasta en resolver problemas, sino en “perderse”.

Tercera conclusión: La eficiencia entre modelos varía mucho—GPT-5 es el más eficiente, otros modelos consumen hasta 1.5 millones de tokens más

En la prueba en el estándar de la industria SWE-bench Verified (500 issues reales de GitHub), evaluaron el rendimiento de 8 modelos de vanguardia. Convertido a dólares, los modelos más eficientes en tokens pueden gastar decenas de dólares más por tarea. En aplicaciones empresariales—ejecutando cientos de tareas al día—la diferencia es dinero real.

Un hallazgo aún más interesante: La eficiencia en tokens es una “característica inherente” del modelo, no solo una consecuencia de la tarea.

Al comparar las tareas que todos los modelos lograron resolver (230) y las que todos fallaron (100), se encontró que el ranking relativo de los modelos casi no cambia.

Esto indica que: algunos modelos son “más parlanchines” por naturaleza, sin importar la dificultad de la tarea.

Otra revelación importante: los modelos carecen de “conciencia de límite”.

Frente a tareas difíciles que ningún modelo puede resolver, el Agente ideal debería abandonar pronto, en lugar de seguir gastando tokens. Pero en realidad, los modelos en tareas fallidas consumen más tokens—no “se rinden”, solo siguen explorando, reintentando, leyendo el contexto una y otra vez, como un coche sin indicador de gasolina que sigue conduciendo hasta que se queda sin combustible.

Cuarta conclusión: Lo que los humanos consideran difícil, el Agente no siempre lo percibe como caro—una percepción de dificultad totalmente equivocada

Quizá pienses: ¿Entonces puedo estimar el costo según la dificultad de la tarea?

El estudio consultó a expertos humanos, quienes calificaron la dificultad de 500 tareas, y compararon con el consumo real de tokens del Agente—

El resultado: solo hay una correlación débil.

En palabras sencillas: tareas que los humanos consideran extremadamente difíciles, el Agente puede resolverlas sin gastar mucho; tareas que parecen fáciles, pueden costarles una fortuna.

Esto se debe a que humanos y IA “perciben” la dificultad de manera diferente:

Los humanos consideran: complejidad lógica, dificultad algorítmica, barreras de comprensión del negocio

El Agente considera: tamaño del proyecto, cantidad de archivos a leer, longitud del camino de exploración, si va a modificar repetidamente el mismo archivo

Un experto humano puede pensar que “solo hay que cambiar una línea”, pero el Agente necesita entender toda la estructura del código para localizar esa línea—leer consume muchos tokens. Y un problema que para un humano parece “lío de lógica”, para el Agente puede ser resolver una solución estándar en segundos.

Esto genera una realidad incómoda: los desarrolladores casi no pueden estimar intuitivamente el costo de correr un Agente.

Quinta conclusión: Incluso los modelos no pueden estimar con precisión cuánto costarán

¿Y si dejamos que la IA prediga su propio gasto?

Los investigadores diseñaron un experimento: que el Agente, antes de comenzar a arreglar, “inspeccionara” el código y estimara cuántos tokens necesitaría—sin realmente arreglar.

¿Y qué pasó?

Todos los modelos fracasaron.

El mejor resultado fue con Claude Sonnet-4.5, con una correlación de predicción de tokens de solo 0.39 (sobre 1.0). La mayoría de los modelos tenían entre 0.05 y 0.34, y Gemini-3-Pro solo 0.04—casi adivinanzas.

Aún más absurdo: todos subestimaron sistemáticamente su consumo de tokens. En el gráfico de dispersión de la Figura 11, casi todos los puntos están debajo de la línea de predicción perfecta—los modelos creen que gastan menos de lo que en realidad gastan. Y esta subestimación es aún peor sin ejemplos previos.

Lo más irónico: predecir también cuesta dinero.

Las predicciones de Claude Sonnet-3.7 y Sonnet-4 pueden costar más del doble del costo de la tarea misma. Es decir, hacer que predigan cuánto gastarán, puede ser más caro que hacer la tarea.

La conclusión del estudio es clara:

Por ahora, los modelos de vanguardia no pueden predecir con precisión su consumo de tokens. Al hacer clic en “ejecutar Agente”, es como abrir una caja de sorpresas—solo al terminar la tarea se sabe cuánto se gastó.

Detrás de esta “confusión” hay un problema mayor en la industria:

¿Y qué significa esto para las empresas?

El modelo de precios por suscripción mensual se está desgarrando

El estudio señala que, como ChatGPT Plus funciona porque el consumo de tokens en conversaciones normales es relativamente controlado y predecible, las tareas con Agentes rompen esa suposición—una tarea puede consumir una cantidad enorme de tokens por un ciclo infinito.

Esto implica que, para escenarios con Agentes, los precios por suscripción pueden no ser sostenibles—el pago por uso (pay-as-you-go) sigue siendo la opción más realista por ahora. Pero el problema es que el uso en sí mismo es impredecible.

La eficiencia en tokens debería ser un “tercer criterio” para elegir modelos

Tradicionalmente, las empresas eligen modelos por capacidad (¿puede hacer el trabajo?) y velocidad (¿lo hace rápido?). Este estudio propone un tercer criterio: eficiencia (¿cuánto cuesta en tokens?).

Un modelo con menor capacidad pero 3 veces más eficiente en tokens, puede ser más valioso en escalas grandes que uno más potente pero mucho más costoso.

Los Agentes necesitan “medidores de gasolina” y “frenos”

El estudio sugiere una dirección futura: políticas de uso de herramientas “con conciencia de presupuesto”. Es decir, dotar al Agente de un “medidor de gasolina”: cuando el consumo de tokens se acerque al límite, forzar que deje de explorar inútilmente, en lugar de seguir gastando sin control.

Actualmente, casi todos los frameworks de Agentes carecen de este mecanismo.

El “problema de gastar dinero” en los Agentes no es un bug, sino una dificultad estructural del sector

La revelación de este estudio no es un fallo de un modelo en particular, sino un desafío inherente a toda la paradigma de los Agentes—cuando la IA evoluciona de “preguntar-responder” a “planificación autónoma, ejecución en múltiples pasos, depuración repetida”, la imprevisibilidad en el consumo de tokens se vuelve casi inevitable.

La buena noticia es que, por primera vez, alguien ha sistematizado el cálculo de esa confusión. Con estos datos, los desarrolladores pueden tomar decisiones más informadas: elegir modelos, establecer presupuestos, diseñar mecanismos de límite; los fabricantes de modelos también tienen un nuevo foco de optimización—no solo hacer modelos más potentes, sino más eficientes.

Al fin y al cabo, antes de que los Agentes de IA entren en entornos productivos en todas las industrias, gastar cada centavo con claridad será más importante que escribir cada línea de código perfectamente.

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
WCTCTradingKingPK
532.6K Popularidad
#
USSeeksStrategicBitcoinReserve
58.75M Popularidad
#
IsraelStrikesIranBTCPlunges
39.51K Popularidad
#
BitcoinETFOptionLimitQuadruples
1.02M Popularidad
#
#FedHoldsRateButDividesDeepen
42.34K Popularidad

Anclado

El agente necesita un "medidor de gasolina" y un "freno": un artículo que revela la "contabilidad confusa" del agente

Temas de actualidad

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

Anclado