Después de un aumento del 83%, los tokens se venden en masa, el informe financiero de Zhipu oculta un punto de inflexión en la industria

En la tercera semana de febrero de 2026, apareció un conjunto de datos históricos en OpenRouter, la mayor plataforma agregadora de APIs de modelos de IA del mundo: el volumen semanal de llamadas a tokens de los modelos chinos alcanzó 5,16 billones de tokens, superando por primera vez los 2,7 billones del mismo periodo de los modelos de EE. UU. Entre los cinco primeros modelos por volumen global de llamadas, China ocupa cuatro puestos.

Un año atrás, el panorama en esta plataforma era completamente otra historia. Anthropic por sí sola acaparaba el 42% de la cuota de tokens, y los modelos chinos casi no estaban en la mesa.

En la misma semana en la que ocurrió esta inversión, mientras Zhipu lanzaba GLM-5, anunció al mismo tiempo una subida de precios del 83% en su API. En un contexto en el que la guerra de precios seguía siendo la melodía principal de la industria, esta fue la primera subida de precios de los modelos de IA nacionales —y después de subir, el mercado siguió estando dispuesto a pagar por Zhipu.

El 31 de marzo, Zhipu (02513.HK) publicó su primer informe anual de resultados después de la salida a bolsa. Los ingresos de todo el año 2025 fueron de 724 millones de RMB, con un crecimiento del 131,9%, manteniendo su posición como la mayor empresa independiente de modelos grandes por escala de ingresos en el mercado doméstico. En la conferencia de presentación de resultados, el CEO de Zhipu, Zhang Peng, resumió la lógica de crecimiento de la empresa en una frase: “Cuando el modelo es lo suficientemente fuerte, la API en sí misma es el mejor modelo de negocio”. Además, juzgó: “La calidad de la inteligencia crea el poder de fijar precios; el uso profundo por parte de empresas y usuarios crea el crecimiento de Scaling.”

El punto central de esta memoria no es un número específico de ingresos, sino que, al igual que Anthropic, el modelo de negocio y el crecimiento están ocurriendo en Zhipu. Lo que ofrece es un punto de referencia a nivel de sistema de coordenadas para la industria de modelos grandes doméstica.

Un momento decisivo en la comercialización de los modelos grandes chinos

De la segunda mitad de 2024 hasta principios de 2025, la industria china de modelos grandes libró una guerra de precios feroz.

Doubao de Byte hizo caer el precio de la entrada de razonamiento a 0.0008 yuanes por 1.000 tokens; Ali Tongyi Qianwen redujo el precio en un 97% para sus modelos principales a nivel de GPT-4; Zhipu también había anunciado en su momento una bajada del 90% para GLM-4-Plus. En esa etapa, casi todos los participantes hacían la misma cosa: cambiar subsidios por un ecosistema, y canjear precios bajos por volumen de llamadas. Con exceso de oferta, lo primordial era arrebatar usuarios.

La guerra de precios sí cumplió su misión histórica. Una vez que los tokens se volvieron lo bastante baratos, se cultivaron los hábitos de uso de desarrolladores individuales y empresas, y se estableció la base general del volumen de llamadas.

Pero el final de la guerra de precios no es quién es más barato, sino quién hace que el cliente piense primero que vale la pena.

El 12 de febrero de 2026 llegó la inflexión. El mismo día del lanzamiento de GLM-5, Zhipu anunció de manera simultánea un ajuste estructural en el sistema de precios de Coding Plan, con un aumento general que parte del 30%. En el primer trimestre de 2026, el margen de subida de precios de la API de Zhipu alcanzó hasta el 83%. La reacción del mercado no fue pérdida, sino compra compulsiva: agotado, cupos limitados, disculpas; de una sola vez.

¿Por qué una subida de precios termina vendiendo con tal intensidad?

Coding no es charla; es un escenario de productividad real. GLM-5 se mantiene en primer lugar entre los open source en listas de programación clave como SWE-bench Verified, y puede completar de forma autónoma tareas de ingeniería de sistemas como la reestructuración del backend y la depuración profunda con una intervención humana mínima. Los desarrolladores pagan por un “ingeniero” así, una decisión totalmente distinta a pagar por un robot de chat. El paquete Pro de 149 yuanes/mes, para programadores no es un gasto, sino una inversión: el tiempo ahorrado se convierte directamente en mayor eficiencia de entrega.

En la conferencia de resultados, Zhang Peng lo dijo de forma directa: “Los desarrolladores son el grupo más sensible al tope de la inteligencia percibida”. En 2025, Zhipu fue la primera en el mercado doméstico en lanzar el paquete de programación GLM Coding Plan; el número de desarrolladores de pago superó rápidamente 242k, y las llamadas a tokens crecieron 15 veces en 6 meses.

En términos de estructura de ingresos, esta memoria muestra un panorama completamente distinto al viejo imaginario del mercado: el crecimiento explosivo de llamadas a API y la contracción significativa de la proporción de ingresos por privatización. Hoy, los ingresos recurrentes por API se han convertido en el motor principal de los resultados de Zhipu: el crecimiento ya no depende del impulso de la firma de contratos, sino de que el uso aumenta por sí mismo.

Cuando el modelo solo acompaña y conversa, el precio es una variable de costo; cuando el modelo puede entregar un sistema completo, el precio es una variable de productividad. El techo del primero es la paciencia del usuario; el techo del segundo es el costo de mano de obra que el usuario ahorra.

Este cambio reescribe directamente la fijación de precios que el mercado hace sobre Zhipu. Las empresas orientadas a proyectos miran PE; las empresas tipo plataforma miran ARR: dos lógicas de valoración totalmente diferentes. Hoy, para el mercado, Zhipu ya no cobra por proyecto, sino que cobra por llamadas. El primero es un negocio intensivo en mano de obra; el segundo es economía de plataforma.

Zhang Peng resume la lógica del poder de fijar precios en una fórmula: “Valor comercial en la era de AGI = tope de inteligencia × escala de consumo de tokens”. “El tope de la inteligencia determina el poder de fijar precios, y la escala de consumo de tokens determina el tamaño del valor”. Luego añade un juicio: “Cuando el modelo es lo suficientemente fuerte, la API en sí misma es el mejor modelo de negocio. La calidad de la inteligencia crea el poder de fijar precios; el uso profundo por parte de empresas y usuarios crea el crecimiento de Scaling.”

Después de una subida del 83%, si el volumen de llamadas no cae sino que sube, es la primera verificación práctica de ese juicio. En el otro lado del océano, Anthropic recorrió el mismo camino: a finales de 2025, ARR de 9.000 millones de dólares; Claude Code, en un solo producto, llegó a 2.500 millones de dólares en 9 meses.

Cuando programar pasa de escribir fragmentos de código a convertirse en la finalización de un sistema como proyecto de ingeniería, el consumo de tokens y el precio unitario pueden subir al mismo tiempo. Zhipu está reproduciendo esta ruta en China.

El “Anthropic de China” entra en su etapa de explosión

Para entender mejor el peso de esta memoria de Zhipu, primero hay que mirar un conjunto de números procedentes del otro lado del océano.

Anthropic tardó 15 meses en lograr un crecimiento sin precedentes: su ARR pasó de 1.000 millones de dólares a finales de 2024 a 19.000 millones de dólares en marzo de 2026. Su base de usuarios es solo el 5% de ChatGPT, pero logró más del 40% de los ingresos de OpenAI; la eficiencia de monetización por usuario es 8 veces la de la última. Aproximadamente el 80% de los ingresos de Anthropic proviene de servicios de llamadas de API a nivel empresarial, y 70 de las Fortune 100 son clientes de Claude.

La enseñanza de Anthropic no es lo grande que es, sino que prueba una cosa: el número de usuarios es una métrica de escala, y la profundidad de las llamadas puede convertirse en dinero real.

En la conferencia de resultados, Zhang Peng ubicó explícitamente a Zhipu dentro de este sistema de coordenadas. Dijo sin rodeos que la empresa “continuará por la ruta comercial de ‘Anthropic en China’, con la inteligencia del modelo como base y la plataforma de API como motor”.

Los datos están cumpliendo ese juicio. Los ingresos de todo 2025 de Zhipu fueron 724 millones de RMB, con un crecimiento del 131,9%, superando el objetivo fijado a inicios de año por la empresa; el margen de beneficio bruto integral del año fue del 41%, muy por encima del nivel de la industria. La plataforma MaaS API ARR es de aproximadamente 1.700 millones de RMB; en los últimos 12 meses se incrementó 60 veces. El margen bruto de la plataforma MaaS aumentó casi 5 veces hasta el 18,9%.

Pero más que los números financieros, lo que mejor demuestra que el volante está funcionando es la “densidad de integración”.

Entre las diez principales empresas de internet de China, ya hay 9 que llaman al modelo GLM en profundidad a diario. En las 24 horas posteriores a cada lanzamiento de una nueva generación de modelos GLM, se logró la integración oficial con productos de plataformas líderes como TRAE/Coze de ByteDance, Qoder de Alibaba, CodeBuddy de Tencent, CatPaw de Meituan, Wanqing de Kuaishou, Baidu Intelligent Cloud y WPS Office.

Mirando la cola larga, más de 4 millones de usuarios empresariales y desarrolladores continúan llamando en entornos de producción reales, cubriendo más de 218 países y regiones en el mundo. GLM se ha convertido en el modelo predeterminado de plataformas internacionales de coding como Windsurf y OpenCode, y OpenRouter tiene el ranking número 1 entre modelos de pago.

La densidad de lo integrado es la densidad de la no sustituibilidad.

Para que el volante gire, el punto de partida es el desempeño del modelo. La serie GLM mantiene continuamente el primer lugar entre los modelos open source globales y también el primer lugar entre los modelos chinos; dentro de todos los modelos del mundo, se mantiene justo detrás de GPT, Claude y Gemini, entrando de forma estable en el primer escalón de la IA global.

La manera en que apareció GLM-5 por sí misma fue una declaración de posicionamiento. Con una identidad anónima de “Pony Alpha” se colocó en el primer puesto de la lista de popularidad de OpenRouter; desarrolladores de Silicon Valley especularon que era Claude Sonnet 5 o DeepSeek-V4; después, una vez revelado, en el primer día tras el lanzamiento se procesaron 4.000 millones de tokens y 206k solicitudes.

La mejora del margen bruto también confirma el aumento de eficiencia del volante. Mediante co-design que combina hardware y software, y del lado del razonamiento, el mecanismo de atención dispersa dinámica reduce los costos de despliegue al 50% del original sin pérdida de rendimiento; del lado del cliente, el incremento de precios también juega un papel de selección positiva: los clientes dispuestos a pagar por los resultados tienen una tasa de retención y profundidad de llamadas aún más altas.

Zhang Peng describe este ciclo virtuoso como: “El avance del tope de la inteligencia impulsa un aumento exponencial en la cantidad de consumo de tokens: a mayor fuerza del modelo, más profundos y diversos los escenarios de uso, y mayor es el volumen de llamadas a tokens”. “La retroalimentación positiva comercial nos permite invertir en más potencia de cómputo e I+D, elevando aún más el tope de la inteligencia. Este volante ya está en marcha”.

El siguiente punto de explosión de la economía de tokens

El 26 de febrero, el CEO de NVIDIA, Huang Renxun, en la llamada de resultados con inversores, repitió varias veces una conclusión para el mercado: “La computación es ingreso; el razonamiento es ingreso.” Sin potencia de cómputo no se pueden generar tokens; sin tokens no se puede generar crecimiento en ingresos.

Los datos globales respaldan esa idea. En el último año, el volumen semanal de llamadas de tokens de los diez modelos principales en OpenRouter se disparó de 1,24 billones a cerca de 14 billones, con un aumento de más de 10 veces. No solo crecieron los usuarios, sino también la profundidad del consumo de tokens por usuario: en cada tarea, el Agent completa más pasos y más llamadas a herramientas, y el consumo de tokens se acumula por pasos.

**En la era de internet, lo gratuito es el camino real, porque el costo marginal del tráfico tiende a cero. En la era de la IA es completamente diferente: cada razonamiento consume cómputo, y los tokens naturalmente llevan precio. Esto significa que las empresas de IA, desde el primer día, se sientan sobre un modelo de negocio de “cobro por cantidad”.

Zhang Peng presentó su marco de juicio: las palabras clave de Zhipu en 2025 fueron “tope de la inteligencia”; en 2026, la palabra clave es “cantidad de tokens”. “Las aplicaciones representadas por OpenClaw han desatado una oleada de consumo de tokens. Continuaremos aumentando la inversión, exprimiendo el rendimiento del razonamiento al límite; no para obtener rentabilidad a corto plazo, sino para respaldar esa curva exponencial de consumo de tokens de alta calidad, que no deja de subir.”

En el último año, las cinco generaciones de modelos de Zhipu tratan, en esencia, de cómo la cantidad de consumo de tokens se amplifica de forma sostenida.

Zhang Peng descompuso esta ruta de paradigma: en la fase de AI coding, el modelo aprende a escribir código, pero en esencia es un asistente; en la fase de Vibe coding, Code is cheap, Idea is what matters; en la fase de Agentic engineering, la IA entiende de forma autónoma las necesidades, formula planes, escribe, prueba e itera con reparaciones, como un ingeniero; al llegar a la fase long horizon, la IA debe trabajar y entregar resultados de forma continua en escalas de tiempo más largas, como un experto experimentado.

En cada salto, el consumo de tokens por tarea se multiplica en comparación con la etapa anterior. Según se informa, se realizará una optimización sistemática del próximo lanzamiento oficial de GLM-5.1 en torno a long horizon task, apuntando justamente al siguiente escalón.

La explosión de OpenClaw convirtió esta tendencia de teoría en realidad. En marzo de 2026, Zhipu lanzó Claw Plan; en dos días, los usuarios suscritos superaron 100k; en 20 días, superaron 400k. El AI Agent opera de forma autónoma 7×24 horas; cada instancia es un “empleado digital” que consume tokens de forma continua.

La demanda estalla, y el lado de la oferta no puede perder el ritmo. GLM-5 ya completó la adaptación profunda para siete plataformas de chips nacionales como Huawei Ascend, Moore Threads y Cambricon. Zhang Peng dijo que la serie GLM ya ha logrado, en chips nacionales, una eficiencia de razonamiento a la altura de los chips de primer nivel a nivel internacional. Con cómputo autónomo y controlable, la capacidad de producción de tokens no quedará ahogada por falta de suministro.

Zhipu condensa toda esta lógica en un concepto: TAC (Token Architecture Capability), fuerza de arquitectura de tokens. TAC = cantidad de llamadas inteligentes × calidad inteligente × eficiencia de conversión económica.

Zhang Peng cree que, en el futuro, el estándar para medir el valor ya no será cuánta información se domina, sino la capacidad de, como arquitecto de tokens, impulsar que modelos grandes y agentes completen tareas complejas. “El objetivo de Zhipu es convertirse en infraestructura para elevar el TAC de toda la sociedad, para que cada gota de tokens se transforme en incrementos económicos entregables.”

Con la misma lógica, Anthropic obtuvo una valoración de 380 mil millones de dólares y un ARR de 19.000 millones. ¿Dónde está el techo del modelo MaaS en China? Esta memoria es el primer punto de coordenadas formal.

En la industria de los modelos grandes, “demanda mayor que la oferta” es más convincente que cualquier cifra de un informe financiero. Cuando una empresa empieza a disculparse por “venderse agotado”, cualquier disputa sobre el poder de fijar precios puede darse por terminada.


*Lo anterior no constituye asesoramiento de inversión, no representa las opiniones de la plataforma de publicación; existen riesgos en el mercado y se debe actuar con prudencia al invertir. Toma una decisión y haz un juicio independiente.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado