En mayo de 2026, un informe generó una amplia atención en la industria: una empresa tecnológica sin establecer límites en la licencia de uso de Claude por parte de sus empleados, consumió en un solo mes tokens equivalentes a aproximadamente 500 millones de dólares. Este caso extremo merece ser examinado no por su escala en sí, sino por la lógica de medición que revela: la compañía igualó el consumo de tokens con la intensidad del uso de IA por parte de los empleados, sin establecer ningún mecanismo de control vinculado a los resultados comerciales.

Si se considera que esta “explosión de facturación” es simplemente una negligencia administrativa, entonces las prácticas internas de empresas líderes en Silicon Valley como Meta y Amazon revelan problemas aún más profundos. Meta lanzó un ranking llamado “Claudeonomics” que rastreaba el consumo de tokens de más de 85,000 empleados, estableciendo títulos como “Leyenda del Token” y “Apreciador del Modelo” para incentivar la clasificación. Los datos muestran que en 30 días, el consumo total fue de aproximadamente 60 billones de tokens, estimado en unos 9 mil millones de dólares según los precios públicos de Anthropic; el empleado con mayor consumo mensual gastó unos 2,81 mil millones de tokens, equivalente a más de 1,4 millones de dólares. En Amazon, la lista “Kirorank” inicialmente buscaba promover la aplicación de IA en escenarios comerciales, pero terminó provocando que empleados realizaran operaciones sin sentido para “subir de nivel”, hasta que un vicepresidente superior los criticó duramente diciendo “no usen IA solo por usarla”. La medición del consumo de tokens, cuando se convierte en un criterio de gestión interna, está generando una distorsión masiva en los incentivos.

De esto surge la pregunta central: ¿puede el consumo de tokens ser una base para evaluar la eficiencia de los agentes de IA, las empresas o los empleados? Si la respuesta es no, ¿qué indicadores realmente tienen valor de evaluación?

Creemos que usar el consumo de tokens como métrica es peligroso, porque confunde “costos” con “valor” y “proceso” con “resultado”. En un momento en que los agentes inteligentes se están convirtiendo en la corriente principal de las aplicaciones de IA, el activo real no son los tokens, sino los propios agentes inteligentes.

II. ¿Cómo surgió la tokenización como activo?

2.1 Madurez comercial de la valoración basada en tokens

El token, como la unidad mínima para procesar texto en modelos grandes, se ha establecido como la base para la valoración en la industria de IA. En marzo de 2026, la Comisión Nacional de Nombres Científicos y Técnicos oficializó el nombre en chino como “cí yuán” (unidad léxica), lanzándolo para prueba pública, y la Oficina de Datos del Estado lo definió como la “unidad de liquidación” en la era inteligente. Según la Oficina de Datos, en el primer trimestre de 2026, el volumen diario de llamadas a tokens en China superó los 140 billones, más de mil veces el nivel de principios de 2024. Esta estandarización refleja que la comunidad industrial está alcanzando un consenso sobre el sistema de valoración basado en tokens.

Desde la perspectiva de fijación de precios, el mercado de tokens muestra una polarización extrema. En modelos internacionales líderes, GPT-4 de OpenAI tiene un precio de entrada de 2.5 dólares por millón de tokens y un precio de salida de 10 dólares; Claude Sonnet 4.6 cuesta 3 dólares de entrada y 15 dólares de salida. En abril de 2026, OpenAI lanzó oficialmente la serie GPT-5.5 y la versión avanzada GPT-5.5 Pro, con una tarifa API de 30 dólares por entrada y 180 dólares por salida por millón de tokens. Paralelamente, modelos nacionales compiten ferozmente en precios: el 27 de mayo de 2026, Xiaomi anunció una reducción permanente de hasta el 99% en los precios de la serie MiMo-V2.5, con el precio de entrada en cacheo para MiMo-V2.5-Pro reducido a 0.025 yuanes por millón de tokens; DeepSeek lanzó la serie V4, y su versión V4-Pro, durante promociones, también bajó a 0.025 yuanes por millón de tokens. No existe un “valor justo” unificado para la valoración en tokens: diferentes modelos y escenarios pueden tener precios que difieren en varias órdenes de magnitud, incluso en cientos o miles de veces.

2.2 Auge y problemas del “Tokenmaxxing”

La racionalidad técnica y la aprobación regulatoria del uso de tokens como unidad de valoración están en una peligrosa brecha con la práctica empresarial de convertirlo en un criterio de gestión. “Tokenmaxxing” empezó a popularizarse en 2025 en las empresas, con la lógica subyacente de: dado que la compañía ya adquirió herramientas de IA, los empleados deben maximizar su uso para obtener el mayor retorno de inversión.

Pero los datos revelan la fragilidad de esta lógica. Algunas investigaciones estiman que por cada dólar de costo de adquisición de tokens de IA, puede haber entre 0.5 y 0.8 dólares en pérdidas implícitas, por errores, reescrituras y retrasos en revisiones. Análisis indican que los usuarios más intensivos de Claude Code en el top 10 consumen tokens unas diez veces más que los desarrolladores promedio, pero sus resultados solo son el doble. Empresas como Amazon y Meta han cerrado sus rankings internos de tokens, y Uber agotó en cuatro meses su presupuesto anual de tokens de IA. La narrativa de “usar más IA” se está transformando en una etapa de cautela sobre si el gasto vale la pena.

2.3 Emergencia de la economía de agentes

No obstante, la discusión centrada en el consumo de tokens ignora casi por completo un cambio estructural: los agentes están evolucionando de ser “capacidades adicionales” en modelos grandes a convertirse en entidades tecnológicas y económicas independientes. En mayo de 2026, el Ministerio de Industria y Tecnología de la Información, la Comisión Nacional de Desarrollo y Reforma y la Administración del Ciberespacio emitieron conjuntamente las “Opiniones sobre la aplicación e innovación de agentes inteligentes”, que definen a los agentes como una forma importante de productos y servicios de IA. En la conferencia de desarrolladores de Anthropic en mayo, Claude Code fue presentado como “infraestructura de automatización asincrónica para equipos de ingeniería”, y se anunció un modelo de precios híbrido basado en “tarifa base + pago por consumo de capacidad”. La estrategia de “Agentes Gestionados” de Anthropic representa un cambio profundo: los fabricantes comienzan a vender infraestructura de ejecución de agentes, desplazando la venta de tokens hacia la venta de capacidades de agentes.

En este contexto, las limitaciones del uso del consumo de tokens como métrica se vuelven aún más evidentes, acelerando la búsqueda de sistemas de evaluación alternativos.

III. ¿Es realmente adecuado usar tokens como métrica?

3.1 Cuatro defectos estructurales en el uso de tokens como métrica

Primero, confunde costo y valor. En la conferencia Create2026 de Baidu, Robin Li afirmó claramente: “El token solo representa el costo, no el beneficio; mide la inversión, no el resultado”. El profesor Ma Shaoping de Tsinghua explicó desde la base técnica que “el token en sí no tiene inteligencia, solo es un portador de información; la inteligencia del agente IA se refleja en la relación de modelado de la secuencia de tokens”. Tomar el consumo de tokens como indicador de eficiencia equivale a que una fábrica mida su producción por el consumo de electricidad: gastar más en electricidad no necesariamente significa producir más, sino que puede indicar ineficiencia o mala gestión.

Segundo, carece de un estándar de medición transversal. La forma en que diferentes grandes modelos calculan tokens no es uniforme; por ejemplo, los ajustes en los tokenizadores de Anthropic pueden hacer que el mismo texto consuma cantidades muy diferentes de tokens. Además, en diferentes tareas, la cantidad de tokens necesarios para lograr un objetivo comercial equivalente puede variar en órdenes de magnitud. Más fundamental aún, cuando el precio del token ya difiere en más de cien veces entre diferentes fabricantes y escenarios, usarlo como referencia de eficiencia en un marco lógico resulta incoherente.

Tercero, genera distorsiones en los incentivos. Cuando el consumo de tokens se incorpora en la evaluación del desempeño, los empleados no solo no están “malgastando costos” por usar IA en exceso, sino que activamente buscan “maximizar el consumo de tokens” como objetivo falso. Los ingenieros dejan de buscar la menor cantidad de tokens para completar tareas óptimas, y en cambio, aumentan la complejidad de las cadenas de tareas, añaden pasos redundantes y razonamientos innecesarios para incrementar el conteo de tokens — una distorsión económica en los indicadores, claramente visible en Meta y Amazon.

Cuarto, no captura la calidad del trabajo realizado. Un agente que resuelve problemas complejos en una sola vez puede consumir mucho menos tokens que uno que requiere múltiples intentos, retrocesos y aproximaciones. Cuanto mayor sea el consumo de tokens, generalmente indica menor eficiencia operativa, lo cual va en contra del objetivo de evaluación.

3.2 Redefinición del agente como activo principal

El análisis anterior apunta a una conclusión fundamental: los tokens son recursos consumidos, pero los agentes inteligentes son los activos que generan valor. La relación es similar a la de consumo de electricidad y el motor que la impulsa: se puede medir el consumo total, pero lo que realmente importa es cuánto trabajo realiza el motor y qué productos produce.

La estrategia de Anthropic lo confirma. En mayo de 2026, lanzaron una versión actualizada de Claude que se centra en “codificación con agentes, uso de computadoras, trabajo cognitivo y análisis financiero”, es decir, en escenarios reales donde los agentes participan. Además, en su estrategia de Agentes Gestionados, la compañía pasa de vender llamadas a modelos a ofrecer infraestructura de ejecución de agentes, desplazando la valoración del valor desde el consumo de capacidad hacia la capacidad de operación del agente. Este cambio refleja que el valor se transfiere de la capa de infraestructura a la capa de aplicación.

Según el responsable de Claude Code, si se basa en precios de suscripción pura, el producto no sería rentable. Esto indica que la valoración solo en tokens no cubre los costos reales del agente, cuyo valor radica en la calidad de la tarea, la automatización y la integración en flujos de trabajo, aspectos que no se reflejan en la medición en tokens.

3.3 Aparición de nuevos estándares de evaluación

Cuando la medición en tokens se vuelve insuficiente, la industria busca alternativas. Desde la evaluación de tareas, el estándar SWE-bench Verified se ha convertido en una referencia rigurosa para agentes de código, exigiendo que el modelo localice y corrija errores en repositorios reales de GitHub. Los resultados públicos muestran que Claude Sonnet 4 obtiene aproximadamente un 80.20% en esta prueba, y otros modelos alcanzan entre 78% y 80%. La clave de estos estándares no es cuántos tokens consumen, sino cuántas “tareas” completan.

En la evaluación del valor comercial, Baidu propone el DAA (Número de Agentes Activos Diarios), definido como “cuántos agentes realmente trabajan y entregan resultados cada día”. La idea es cambiar el foco de “cuántos IA usas” a “cuántas tareas completas”.

Amazon también explora métricas como “despliegue normalizado” para reemplazar el seguimiento de tokens, midiendo si los ingenieros pueden generar código útil de forma continua con IA. El informe de FinOps Foundation 2026 muestra que el 98% de las empresas ya gestionan costos de IA, frente al 31% de hace dos años, y la visibilidad de costos se ha convertido en un desafío principal. Esto indica que la evaluación de gastos en IA se está moviendo de “si hay gasto” a “cómo se relaciona el gasto con los resultados”, en línea con la idea de que el activo real no son los tokens, sino los agentes inteligentes.

IV. Comparación entre la medición en tokens y la guerra de precios

4.1 La postura basada en tokens vs la basada en agentes

La postura basada en tokens remonta a la declaración de Jensen Huang en la GTC de marzo de 2026: “Si un ingeniero con salario de 500,000 dólares no puede gastar 250,000 dólares en tokens en un año, me preocuparía mucho”, y propone que el presupuesto de tokens sea un indicador de productividad. La narrativa central es que el consumo de tokens refleja la inversión en productividad, con la suposición implícita de que “más tokens consumidos equivalen a mayor valor creado”.

Pero esta hipótesis enfrenta múltiples desafíos. El COO de Uber, Andrew Macdonald, señaló directamente: “Es muy difícil vincular la mejora en la productividad individual de los empleados con el impacto en los negocios”. En la práctica, los empleados usan IA para tareas que no les gustan, no necesariamente las más valiosas para la empresa. En finanzas, solo el 14% de los CFO puede medir claramente el retorno de inversión en IA. Tras agotar su presupuesto anual de tokens, Uber no vio un aumento proporcional en rendimiento. La evidencia apunta a que: el presupuesto en tokens no tiene una relación verificable con el crecimiento del negocio, y no debe usarse como métrica de evaluación.

4.2 La guerra de precios en tokens, un arma de doble filo

La competencia feroz en precios de tokens añade una dimensión adicional a la disputa por la medición. En abril de 2026, GPT-5.5 Pro de OpenAI subió su precio a 30 dólares de entrada y 180 dólares de salida por millón de tokens, varias veces más que versiones anteriores. Al mismo tiempo, DeepSeek redujo su precio promocional a 0.025 yuanes por millón de tokens, y Xiaomi también bajó el precio de MiMo-V2.5-Pro a 0.025 yuanes. La fragmentación en los precios de tokens ha superado cualquier escala en mercados tradicionales. En infraestructura equivalente, el costo de llamar a un millón de tokens puede variar desde menos de 0.03 yuanes hasta unos 210 yuanes (unos 30 dólares).

Este dinamismo pone en duda la credibilidad del token como métrica: si el costo de un token puede variar en cientos o miles de veces entre proveedores, ¿cómo puede el consumo de tokens servir como base para comparar la eficiencia de IA entre empresas? Para inversores y analistas, basar predicciones en el consumo de tokens se vuelve cada vez más arriesgado. La valoración en tokens está en rápida dispersión, y la “inversión en tokens” pierde referencia.

V. La evidencia supera a las palabras

Caso uno: el fracaso de “Claudeonomics” en Meta

En abril de 2026, un empleado de Meta creó un panel interno llamado “Claudeonomics” para rastrear el consumo de tokens de más de 85,000 empleados. Los datos mostraron que en 30 días, el consumo total fue de unos 60 billones de tokens, estimado en unos 9 mil millones de dólares según los precios públicos de Anthropic. El empleado con mayor consumo gastó unos 2,81 mil millones de tokens, equivalente a más de 1,4 millones de dólares.

Este ejemplo muestra claramente las tres fases de la incentivación basada en tokens: primero, incentivar a los empleados a usar IA mediante el consumo de tokens; segundo, que los empleados busquen o generen tareas para consumir más tokens y mantener su ranking; tercero, que los recursos de computación se gasten sin producir resultados útiles, y que la calidad de la producción sea muy inferior a lo esperado. Finalmente, Meta eliminó ese ranking.

Caso dos: limitaciones de capacidad y expansión de Anthropic

Otra cara del consumo en tokens es la presión sobre los costos y la infraestructura de los modelos. En mayo de 2026, para aliviar las limitaciones de capacidad de Claude, Anthropic anunció que asumirá toda la infraestructura del centro de datos Colossus 1 de SpaceX, con más de 300 MW adicionales y más de 220,000 GPUs Nvidia. Según el acuerdo, esta expansión se usará para mejorar la capacidad de servicio de Claude Pro y Claude Max. Esto revela que el sistema de valoración en tokens depende mucho de la disponibilidad de capacidad de computación, y que su estabilidad a largo plazo aún tiene incertidumbres.

Caso tres: presión en las facturas de tokens empresariales

Se reporta que Microsoft limitó el uso de Claude Code por parte de empleados. Uber agotó en cuatro meses su presupuesto anual de tokens de IA. Empresas como Shopify, Spotify, ServiceNow y Roku mencionan en sus informes que la IA se ha convertido en un gasto operativo principal. Cuando el aumento rápido en las facturas de tokens empieza a afectar los resultados trimestrales, las empresas comienzan a examinar sistemáticamente la relación entre consumo y resultados.

Caso cuatro: agentes como activos positivos

Mientras la narrativa basada en tokens enfrenta desafíos, algunas empresas que construyen sistemas de evaluación centrados en los agentes muestran caminos diferentes. La estrategia de Anthropic en servicios empresariales ha sido efectiva: aunque su base de usuarios en el consumidor final no alcanza el 2% de ChatGPT, sus ingresos anuales continúan acercándose a los de OpenAI. Según informes, los ingresos anuales de Anthropic en 2025 alcanzaron unos 9 mil millones de dólares, y en marzo de 2026 superaron los 30 mil millones, superando los 25 mil millones de OpenAI en ese momento. La clave está en que sus agentes realizan tareas reales en backend, como contratos, análisis de datos y gestión de cadenas de suministro, generando valor constante que los usuarios no ven directamente.

Medios como The Information reportan que los ingresos anuales de Claude Code crecieron rápidamente entre 2025 y principios de 2026, y las empresas pagan por la calidad de las tareas que los agentes completan, no solo por el consumo de capacidad. Esto confirma que el activo real es el agente inteligente, no los tokens.

VI. De un enfoque en tokens a uno en agentes como activos principales

En resumen, las tendencias ya son evidentes en ambas direcciones:

Primero, la medición en tokens como indicador de eficiencia tiene defectos estructurales. Confunde inversión y resultado, carece de estándares transversales y genera incentivos distorsionados, como lo evidencian Meta y Amazon.

Segundo, los agentes inteligentes están emergiendo como los activos de mayor valor en la economía de IA. La característica clave de un agente eficiente es que realiza tareas en función de “completar unidades de tarea”, no solo en “consumir capacidad de cálculo”. Un agente eficiente puede completar tareas complejas con muy pocos tokens, mientras que uno ineficiente puede gastar mucho sin resolver problemas reales. Por tanto, el consumo de tokens no refleja los límites de capacidad ni predice el retorno de inversión en IA.

Tercero, la industria está transitando de una evaluación centrada en tokens a una centrada en agentes. Los estándares de tareas como SWE-bench ofrecen marcos comparativos; métricas como DAA miden la cantidad de tareas reales completadas diariamente; y las empresas exploran indicadores de rendimiento basados en la calidad de los resultados.

En definitiva, el activo real no son los tokens, sino los agentes inteligentes. Los tokens son el combustible para su operación, pero la competitividad empresarial depende de la eficiencia del motor, no del tamaño del tanque. La transición de una evaluación centrada en tokens a una centrada en agentes será una de las principales líneas de reconstrucción del sistema de valoración en la industria de IA en los próximos tres a cinco años.

Ver original

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

Añadir un comentario

Sin comentarios

Temas de actualidad
Ver más
#
ShareYourUSStocksWinNvidia
23.93M Popularidad
#
WinGoldBarsWithGrowthPoints
1.28M Popularidad
#
IsraelStrikesIranBTCPlunges
52.1K Popularidad
#
NvidiaSurges6PercentToRecordHigh
2.87M Popularidad
#
AnthropicFilesConfidentialIPO
481.77K Popularidad

Fijado

El token no es un activo real, la entidad inteligente sí lo es

I. El enorme consumo de tokens por empleados en empresas tecnológicas