De la bajada de precios colectiva a la subida colectiva de precios, ¿por qué la "economía de tokens" cambió de rumbo en dos años?

Question

¿ Cómo explotar la demanda explosiva de tokens a través de aplicaciones de IA y agentes inteligentes?

El token es la “nueva moneda” en la era de la IA. En 2024, la guerra de precios de IA se intensifica, y los tokens se valoran en “céntimos”; para 2026, la demanda de potencia de cálculo se dispara, y los fabricantes de modelos y proveedores de la nube aumentan colectivamente los precios de los tokens.

En los últimos dos años, la industria de grandes modelos ha experimentado una transición drástica de una guerra de precios a una guerra de valor, y el valor del token está siendo reevaluado. Además de salarios, bonificaciones y participaciones accionarias, los tokens incluso se han convertido en una nueva carta en las negociaciones salariales de ingenieros en Silicon Valley. La competencia por la distribución de ecosistemas y recursos en torno a los tokens ya ha comenzado.

De la ola de bajadas de precios a la ola de subidas

En 2026, los fabricantes de modelos y proveedores de la nube aumentan colectivamente los precios de los tokens. Este año, Zhipu ya ha emitido dos avisos de aumento de precios. El 16 de marzo, Zhipu lanzó el modelo base GLM-5-Turbo, optimizado para escenarios profundos de OpenClaw, con un aumento del 20% en el precio de la API. En el paquete “Langosta” para usuarios individuales y empresariales, la tarjeta mensual de experiencia Claw cuesta 39 yuanes/mes, con 35 millones de tokens, y la tarjeta avanzada cuesta 99 yuanes/mes, con 100 millones de tokens. En febrero, Zhipu publicó un anuncio de ajuste de precios para Coding Plan, diciendo que “debido al crecimiento sostenido de la demanda del mercado de GLM Coding Plan, y al rápido aumento en la escala de usuarios y llamadas”, se decidió cancelar las promociones de primera compra, manteniendo descuentos por suscripción trimestral y anual, con un aumento general en los precios de los paquetes desde un 30%.

Además de los fabricantes de modelos, los proveedores de la nube también están aumentando los precios colectivamente. Debido a la popularidad de las suscripciones Coding Plan, Alibaba Cloud vio un aumento explosivo en las llamadas a la API de modelos, y el 4 de marzo anunció una ajuste temporal en las promociones de primera compra, con suministro limitado y en horarios específicos, hasta agotar existencias. El 18 de marzo, Alibaba Cloud indicó que, debido a la explosión de demanda global de IA y al aumento en los costos de la cadena de suministro, los costos de adquisición de hardware clave en la industria han aumentado significativamente, y a partir del 18 de abril ajustarán los precios de servicios como potencia de cálculo de IA y CPFS (versión inteligente). Los servicios relacionados con tarjetas de potencia de cálculo como Pingtouge Zhenwu 810E aumentaron entre un 5% y un 34%, y CPFS (versión inteligente) subió un 30%.

Baidu Cloud también anunció que, a partir del 18 de abril, los productos y servicios relacionados con la potencia de cálculo de IA aumentarán aproximadamente entre un 5% y un 30%, y el almacenamiento de archivos en paralelo también aumentará alrededor del 30%. Tencent Cloud anunció que, desde el 13 de marzo, los modelos GLM 5, MiniMax 2.5 y Kimi 2.5 dejarán la fase de prueba pública y pasarán a servicios comerciales oficiales, con tarifas basadas en el uso. Los precios de los modelos de la serie Hun Yuan también se ajustaron: el precio de entrada del modelo Tencent HY2.0 Instruct pasó de 0.0008 yuanes por mil tokens a 0.004505 yuanes, y el precio de salida de 0.002 yuanes a 0.01113 yuanes por mil tokens.

Sin embargo, hace solo dos años, la “ola de bajadas de precios” de tokens aún está fresca en la memoria.

En la “Batalla de los cien modelos” de 2024, la industria de grandes modelos todavía estaba en plena guerra de precios, con proveedores de la nube y fabricantes de modelos compitiendo por reducir precios y regalar tokens.

En mayo de ese año, ByteDance inició una guerra de precios con un token a 0.0008 yuanes por mil tokens, seguido por Alibaba Cloud, que anunció una reducción máxima del 97% en Tongyi Qianwen, cuyo modelo principal GPT-4 nivel, Qwen-Long, vio el precio de entrada para GPT-4 de 0.02 yuanes por mil tokens a 0.0005 yuanes. Al mismo tiempo, la cantidad de tokens de bonificación para nuevos usuarios de Zhipu aumentó de 5 millones a 25 millones.

DeepSeek, que entrenó modelos de alto rendimiento a menor costo, reveló en marzo del año pasado información clave sobre su sistema de inferencia V3/R1, y mediante la optimización del rendimiento y la latencia, si todos los tokens se valoraran según la tarifa de DeepSeek-R1, el margen de beneficio sería del 545%.

La tecnología es la base para la reducción de precios de los modelos. Tan Dui, presidente de Volcano Engine, plataforma de servicios en la nube de ByteDance, afirmó en 2024 durante la ola de bajadas de precios de IA que la lógica básica de la reducción de precios es tener confianza en reducir costos mediante medios tecnológicos, y que el mercado también necesita modelos de mayor rendimiento a menor precio.

“Hace dos años, la demanda de potencia de cálculo era mayormente empresarial, ahora hay una ‘hambre’ de potencia personal, lo que impulsa a las startups de IA y a las grandes empresas a cambiar su modelo de negocio hacia el consumo de tokens”, afirmó Tian Feng, director del Instituto de Investigación de Pensamiento Rápido y Lento, y ex fundador del Instituto de Industria de IA de SenseTime.

En los últimos dos años, la rápida iteración de modelos y la expansión de aplicaciones de agentes inteligentes han impulsado un aumento sostenido en la demanda de potencia de cálculo, y la capacidad de tarjetas de inferencia de alta relación calidad-precio es limitada, mientras que los costos de hardware clave como memoria y la infraestructura relacionada han aumentado notablemente. Bernard Golden, CEO de Navica, firma de análisis, consultoría e inversión en tecnología en Silicon Valley, afirmó que toda la industria está buscando frenéticamente más potencia de cálculo.

Ante el desequilibrio entre oferta y demanda, el aumento de precios es inevitable.

“Un modelo más inteligente realiza tareas más complejas y consume recursos mucho mayores”, afirmó Zhang Peng, CEO de Zhipu, en respuesta a la estrategia de aumento de precios. La ejecución de tareas por parte de agentes inteligentes implica cadenas de pensamiento y razonamiento más largas, además de interactuar con la infraestructura subyacente mediante escritura de código, depuración y corrección de errores en tiempo real. La cantidad de tokens necesaria para completar una tarea es diez o incluso cien veces mayor que para responder a una pregunta simple. La esencia del ajuste de precios es que los costos están cambiando: “Los modelos son más grandes, más potentes, y los costos de servicio correspondientes también aumentan, por lo que esperamos devolverlo gradualmente a un rango de valor comercial normal. La dependencia a precios bajos a largo plazo no favorece el desarrollo de la industria.”

El crecimiento de llamadas a tokens en dos años, mil veces

En los últimos dos años, los proveedores de software han integrado capacidades de generación de texto, imágenes y voz en plataformas de atención al cliente, generación de materiales de marketing, robots de servicio y otros productos existentes mediante interfaces API estandarizadas. Los usuarios empresariales llaman a los modelos grandes a través de API, pagando según uso o suscripción, reduciendo barreras de entrada y costos iniciales. Después de todo, el costo de una sola GPU H100 es aproximadamente 25,000 dólares, y el gasto en varias GPUs en un solo sistema será aún mayor.

Este modelo de servicio permite que los grandes modelos lleguen rápidamente a una gran cantidad de usuarios, y las llamadas a tokens se disparan. Liu Liehong, director de la Oficina Nacional de Datos, reveló que, para fines de 2025, se habían construido más de 100,000 conjuntos de datos de alta calidad en China. Para marzo de este año, el volumen diario de llamadas a tokens en China superó los 140 billones, un aumento de más de mil veces respecto a principios de 2024, y en solo tres meses creció más del 40% respecto a los 100 billones de finales de 2024.

Tian Feng afirmó a The Paper que en 2024, la demanda de potencia de cálculo para entrenamiento superó en más del 50%, y para 2025, la situación se invertirá completamente. Si hace dos años fue una “batalla de modelos”, ahora es una “batalla de langostas”.

La explosión en la demanda de inferencia, y la profunda vinculación entre servicios de inferencia y consumo de tokens, constituyen el escenario de potencia de cálculo de mayor tamaño y crecimiento más rápido. La mejora continua en el rendimiento de los modelos impulsa un aumento explosivo en el consumo de tokens, y la amplia penetración de aplicaciones de agentes inteligentes como “OpenClaw” y “Langosta” hace que la demanda de tokens se dispare. OpenClaw es apodado como un “agujero negro de tokens”. Para las empresas y particulares que usan Langosta, los tokens representan la mayor limitación de costos.

Tian Feng afirmó que el consumo de tokens para la ejecución automática de tareas por agentes inteligentes es de 4 a 15 veces mayor que en preguntas y respuestas tradicionales. El emprendedor de IA Luo Xuan usa OpenClaw para realizar investigaciones complejas y necesita gastar millones o más tokens. Para encontrar tokens más baratos, su experiencia es registrarse como nuevo usuario en proveedores de la nube o modelos, para obtener tokens gratuitos, pero aún así dice que “los tokens son demasiado caros”.

Las tareas de programación, chat y oficina, que consumen potencia de cálculo en tokens, también incluyen generación de imágenes y videos, que se valoran por cantidad de imágenes, duración y resolución, consumiendo también mucha potencia. La suspensión del servicio de generación de videos Sora por parte de OpenAI es un ejemplo. Ejecutar servicios de generación de videos requiere una enorme cantidad de recursos computacionales y energía eléctrica, lo cual representa un gasto enorme para cualquier empresa, y la suspensión de Sora libera muchos recursos de cálculo.

La demanda de potencia de cálculo no solo impulsa el crecimiento de GPUs, sino que también afecta a todos los hardware relacionados, que se ven afectados por la misma tendencia y se convierten en un factor limitante.

“Incluyendo refrigeración, iluminación, consumo de energía en servidores, el costo de electricidad en los centros de datos representa aproximadamente el 60%. Ahora, los precios de energías como petróleo y gas natural están en alza, y la memoria tiene un ciclo de aumento de cinco años”, afirmó Tian Feng. Los costos energéticos y de hardware impulsan la subida de precios de la potencia de cálculo.

Huang Zhiming, vicepresidente global de Cisco y CEO en China, dijo a The Paper que, a corto plazo, la inversión en hardware y la construcción de fábricas no se completan en uno o dos meses, y la oferta y demanda seguirán fluctuando durante un tiempo. Hou Shengli, vicepresidente senior y CTO de Cisco en China, agregó que generalmente se necesita unos dos años para que la capacidad de producción siga la demanda, “la adaptación de fábricas de memoria lleva al menos dos años, y no mejorará antes de finales de 2027; reconstruir fábricas y planificar líneas de producción no es tan rápido”. Sin embargo, Huang Zhiming opina que, con la expansión del uso y la popularización de las aplicaciones, los costos tenderán a volverse más accesibles y económicos.

Yao Xin, fundador de Piao Cloud, proveedor de servicios de IA en la nube en Shanghai, afirmó a The Paper que, hoy en día, el cuello de botella que limita la IA y la potencia de cálculo no son los chips de alta gama, sino las tecnologías informáticas comunes y los componentes tradicionales. En los últimos diez años, la cadena de suministro de infraestructura IT tradicional, incluyendo memoria, discos duros y conmutadores, ha mantenido un crecimiento estable y proporcional al crecimiento del PIB global, con una demanda a largo plazo que determina un ritmo de expansión moderado. Pero el crecimiento explosivo de la IA ha roto ese equilibrio. La cantidad de GPUs en el mercado ha aumentado mucho, y en esta “punto de inflexión”, la capacidad de suministro de componentes periféricos no ha podido seguir el ritmo. “La capacidad de producción de chips de alta gama ha aumentado, pero otras capacidades no. Todos han sido golpeados por esta ola, por lo que componentes tradicionales como memoria y discos duros también están expandiendo su producción.”

Alternancia en oferta y demanda, y eventual estabilización

“Hoy en día, los tokens son más caros que los pasantes, y en tres o cinco años serán más baratos”, afirmó Tian Feng, quien también opina que, en el futuro, los precios de los tokens definitivamente disminuirán.

Él cree que, a corto plazo, la subida de precios de la potencia de cálculo se debe a una descoordinación entre oferta y demanda. Pero, desde la perspectiva del ciclo de semiconductores, la manufactura tiene ciclos de capacidad, y tras expandir la producción, la nueva capacidad se libera en masa, impactando en el mercado y reduciendo los precios, incluso generando exceso de capacidad. Desde la perspectiva energética, China está promoviendo una transformación en la estructura de energías renovables, lo que puede reducir aún más los costos energéticos. A mediano plazo, el precio dependerá de la mejora en la capacidad de los modelos base: cada versión nueva que se lanza cada tres meses suele resolver necesidades no satisfechas previamente y liberar nuevas demandas, elevando los precios de la potencia de cálculo; a largo plazo, dependerá de la evolución de la capacidad de inferencia, que finalmente conducirá a una disminución continua en los costos de la potencia de cálculo.

En los últimos dos años, la oferta y la demanda han alternado en auge. Tian Feng afirmó que DeepSeek representa un pico en la reducción de costos a nivel de innovación, y que la explosión de productividad representada por “Langosta” ha generado un pico en la demanda. “Pero esto no significa que, cuando la demanda explota, la inferencia no pueda reducir costos; simplemente, la velocidad de explosión es mayor que la velocidad de reducción de costos en inferencia. En 3 a 5 años, los costos totales de potencia de cálculo y los gastos en tokens disminuirán drásticamente.”

Yao Xin afirmó que la IA ha entrado en un “punto de singularidad”, y que en uno o dos años, experimentará un crecimiento exponencial de diez o cien veces. “Todas las industrias que no estén preparadas para afrontar este crecimiento experimentarán una escasez a corto plazo. Pero, como las ondas en el agua, eventualmente se estabilizará.”

Detrás del aumento de precios de los tokens, también está cambiando la lógica comercial. El CEO de Nvidia, Jensen Huang, ha mencionado varias veces la estructura de “las cinco capas” de la IA, que van desde la energía, los chips, la infraestructura, los modelos y las aplicaciones, siendo la capa superior la que generará las mayores ganancias económicas.

“La IA actual es como la Internet en 2000, cuando todavía no se entendía bien qué podía hacer, pero muchas personas se dedicaron a construir sitios web de todo tipo”, afirmó Hou Shengli. Con la aplicación y la innovación continuas, en 2005 y 2006 surgieron cada vez más escenarios de ‘Internet +’, y los servicios se fusionaron gradualmente. El desarrollo de la IA también merece ser esperado, y se predice que 2026 será el año de los agentes inteligentes, con aplicaciones que surgirán en abundancia.

Estas aplicaciones de agentes inteligentes ya se integran en teléfonos, computadoras e incluso en líneas de producción industrial. “La demanda de productividad mediante IA de cada persona es casi ilimitada; la única restricción es el precio. Si sube, la demanda disminuye; si baja, la demanda aumenta”, afirmó Tian Feng. Incluso ahora, las grandes empresas no aplican una política uniforme de aumento de precios. “Por un lado, las grandes empresas aumentan los precios en la nube para clientes B (empresas), y por otro, ofrecen pruebas gratuitas o tokens de bonificación para captar clientes C (consumidores)”. Tian Feng admitió que la situación actual es similar a los primeros días de Internet: las grandes empresas compiten por usuarios, pero lo más importante es la competencia por los desarrolladores.

Antes, los desarrolladores eran programadores en todo el mundo; ahora, muchos no técnicos tienen habilidades en Vibe Coding (programación en ambiente). Son tanto consumidores como creadores de código. Cuando las grandes empresas retienen a los desarrolladores, logran que sus resultados de desarrollo permanezcan en su nube.

Las grandes empresas de Internet ofrecen tokens a sus empleados para incentivar el uso de IA. Según un informe de JiJie News, Alibaba está promoviendo un plan interno para proporcionar tokens a los empleados, incentivándolos a usar modelos y herramientas de IA avanzados en su trabajo. Los empleados pueden usar gratuitamente herramientas de IA de pago como Goku y la plataforma de agentes inteligentes Qoder, y la empresa les proporciona tokens. Los empleados que compren membresías de Coding Plan o herramientas externas de IA pueden solicitar reembolsos.

Los escenarios de aumento de productividad con IA no se limitan a programación, sino que también incluyen creación de contenido y trabajo profesional, que también generan demanda de tokens. MiniMax incluso ha actualizado su antiguo Coding Plan a un Token Plan que soporta modelos multimodales de MiniMax, aprovechando la oportunidad de los tokens.

“Francamente, no hemos encontrado muchas necesidades urgentes en la creación de modelos, por lo que generalmente cobramos por suscripción mensual. La atención a los tokens se debe a que indicadores como el crecimiento mensual de usuarios y el consumo promedio de tokens representan directamente el aumento de ingresos”, afirmó Tian Feng. Esto genera una fuerte fidelidad de los usuarios: si el producto funciona bien, incluso con precios algo elevados, los usuarios están dispuestos a pagar por una mejor experiencia. Además, con 5 millones de tokens, se pueden vender por 22 yuanes o por 400 yuanes, y la prima está directamente relacionada con las capacidades del modelo base y del agente inteligente. Tian Feng concluyó que, en esencia, los tokens representan un yacimiento de oro aún por explotar.

De la bajada de precios colectiva a la subida colectiva de precios, ¿por qué la "economía de tokens" cambió de rumbo en dos años?

Temas de actualidad

WCTCTradingChallengeShare8MUSDT

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Anclado