Après une hausse de 83 %, le token s'est vendu comme des petits pains, le rapport financier de Zhipu cache un tournant dans l'industrie

2026-04-08 04:57:45

Au cours de la troisième semaine de février 2026, une série de données historiques est apparue sur OpenRouter, la plus grande plateforme agrégatrice d’API de modèles d’IA au monde : le nombre hebdomadaire d’appels de tokens des modèles chinois est monté à 51.6k, dépassant pour la première fois les 27k des modèles américains sur la même période. Parmi les cinq modèles les mieux classés en volume d’appels mondiaux, la Chine en occupe quatre.

Un an plus tôt, la configuration sur cette plateforme racontait une histoire entièrement différente. Anthropic à elle seule détenait 42 % de la part des tokens, et les modèles chinois étaient presque absents de la table de jeu.

Dans la même semaine où ce renversement s’est produit, au moment où Zhipu a publié GLM-5, l’entreprise a annoncé en même temps une hausse des prix de 83 % de son API. Dans un contexte où la bataille des prix reste la tendance principale de l’industrie, c’est la première carte de hausse de prix des grands modèles domestiques — et après l’augmentation, le marché est toujours disposé à payer pour Zhipu.

Le 31 mars, Zhipu (02513.HK) a publié son premier rapport annuel de résultats depuis son introduction en bourse. Pour l’année 2025, le chiffre d’affaires a atteint 724 millions de RMB, en hausse de 131,9 % sur un an, et l’entreprise a continué d’occuper la position de la plus grande entreprise indépendante de grands modèles en taille de revenus en Chine. Lors de la conférence de publication des résultats, le CEO de Zhipu, Zhang Peng, a résumé la logique de croissance de l’entreprise en une phrase : « Quand le modèle est suffisamment puissant, l’API elle-même est le meilleur modèle commercial. » Il a en outre jugé : « La qualité de l’intelligence crée le pouvoir de fixation des prix, et l’utilisation approfondie par les entreprises et les utilisateurs crée la croissance du Scaling. »

Le point central de ce rapport financier n’est pas un chiffre précis de revenus, mais plutôt le fait que le modèle commercial et la croissance, comme chez Anthropic, sont en train de se produire chez Zhipu. Il fournit un repère de niveau « système de coordonnées » pour l’industrie des grands modèles domestiques.

Un moment charnière dans la commercialisation des grands modèles chinois

D’octobre 2024 à début 2025, l’industrie chinoise des grands modèles a mené une bataille des prix particulièrement féroce.

Byte a fait tomber le prix de l’entrée d’inférence à 0.0008 yuan par 1 000 tokens ; Ali a réduit de 97 % le prix de son modèle principal de niveau GPT-4 sur Qwen ; et Zhipu elle-même avait aussi annoncé une baisse de 90 % pour GLM-4-Plus. À ce stade, presque tous les acteurs faisaient la même chose : gagner l’écosystème avec des subventions, gagner le volume d’appels avec des prix bas. L’offre excédait la demande ; conquérir les utilisateurs était la priorité absolue.

La bataille des prix a bien accompli sa mission historique. Une fois les tokens suffisamment bon marché, les habitudes d’utilisation des développeurs individuels et des entreprises ont été cultivées, et la base du volume d’appels a été établie.

Mais l’issue de la bataille des prix n’est pas « qui est le moins cher », c’est « qui fait en premier que le client trouve que c’est cher, mais que ça vaut le coup ».

Le 12 février 2026, le tournant est arrivé. Le jour de la sortie de GLM-5, Zhipu a également annoncé un ajustement structurel du système tarifaire Coding Plan, avec une hausse globale à partir de 30 %. Au premier trimestre 2026, la hausse du prix de l’API de Zhipu a atteint 83 %. La réaction du marché n’a pas été la perte, mais la frénésie d’achat — complet, plafonnement des ventes, excuses, et ainsi de suite.

Pourquoi une hausse de prix mène-t-elle à des ruptures de stock plutôt qu’à des ventes en baisse ?

Coding n’est pas du chat ; c’est un scénario de productivité concret. GLM-5 se maintient en tête des classements de programmation open source clés comme SWE-bench Verified : il peut accomplir de manière autonome des tâches d’ingénierie système telles que la refonte du backend et le débogage approfondi avec très peu d’intervention humaine. Les développeurs paient pour un « ingénieur » comme celui-ci, et la décision n’est absolument pas la même que payer pour un chatbot. Le forfait Pro à 149 yuans par mois n’est pas une dépense pour les programmeurs, c’est un investissement : le temps économisé se convertit directement en efficacité de livraison et de concrétisation.

Lors de la conférence de publication des résultats, Zhang Peng l’a dit de façon très directe : « Les développeurs sont le groupe le plus sensible en haut de la courbe de l’intelligence perceptive. » En 2025, Zhipu a lancé en Chine pour la première fois un forfait de programmation GLM Coding Plan ; le nombre de développeurs payants a franchi rapidement 242k. Le volume d’appels de tokens a augmenté 15 fois en 6 mois.

Du point de vue de la structure des revenus, cette note de résultats montre une image totalement différente des impressions anciennes du marché : une croissance explosive du volume d’appels d’API, tandis que la proportion des revenus de privatisation se réduit fortement. À présent, le revenu récurrent d’API est devenu le principal moteur des résultats de Zhipu ; la croissance ne dépend plus de la signature de contrats, mais de la hausse du volume lui-même.

Quand le modèle n’est qu’un outil pour accompagner la discussion, le prix est une variable de coût ; quand le modèle peut livrer un système complet, le prix est une variable de productivité. Dans le premier cas, le plafond est la patience des utilisateurs ; dans le second, le plafond est le coût de main-d’œuvre que les utilisateurs économisent.

Ce changement a directement réécrit la tarification de Zhipu perçue par le marché. Les entreprises à projets se valorisent sur la base du PE, les plateformes sur la base de l’ARR — deux logiques d’évaluation entièrement différentes. Aujourd’hui, aux yeux du marché, Zhipu ne facture plus « par projet », mais « par appel » pour encaisser des rentes. Le premier est une activité à forte intensité de travail ; le second, une économie de plateforme.

Zhang Peng a résumé la logique du pouvoir de fixation des prix dans une formule : « La valeur commerciale à l’ère de l’AGI = haut de gamme d’intelligence × ampleur de la consommation de tokens. » « Le haut de gamme de l’intelligence détermine le pouvoir de fixation des prix, et l’ampleur de la consommation de tokens détermine la taille de la valeur. » Il a en outre jugé : « Quand le modèle est suffisamment fort, l’API elle-même est le meilleur modèle commercial. La qualité de l’intelligence crée le pouvoir de fixation des prix, et l’utilisation approfondie par les entreprises et les utilisateurs crée la croissance du Scaling. »

Après une hausse de 83 %, le volume d’appels n’a pas diminué mais a au contraire augmenté : c’est la première validation pratique de ce jugement. De l’autre côté de l’océan, Anthropic a emprunté la même voie : fin 2025 ARR à 9,0 milliards de dollars ; le produit Claude Code, en 9 mois, a atteint 2,5 milliards de dollars.

Quand la programmation passe de l’écriture de fragments de code à la réalisation d’ingénierie de systèmes complets, le volume de consommation de tokens et le prix unitaire peuvent augmenter en parallèle. Zhipu est en train de reproduire cette trajectoire en Chine.

« Anthropic chinois » entre dans une phase d’explosion

Pour mieux comprendre le poids de ce rapport de Zhipu, il faut d’abord examiner une série de chiffres venus de l’autre côté de l’océan.

Anthropic a réalisé en 15 mois une croissance sans précédent : l’ARR est passé de 1 milliard de dollars à la fin de 2024 à 19 milliards de dollars en mars 2026. Son nombre d’utilisateurs n’est que 5 % de celui de ChatGPT, mais elle a réalisé plus de 40 % des revenus d’OpenAI ; l’efficacité de monétisation par utilisateur est 8 fois celle du second. Environ 80 % des revenus d’Anthropic proviennent de services d’appels d’API au niveau entreprises ; parmi les Fortune 100, 70 % sont des clients de Claude.

L’enseignement d’Anthropic ne réside pas dans sa taille, mais dans une chose qu’elle prouve : le nombre d’utilisateurs est un indicateur d’échelle, et la profondeur des appels peut devenir de l’argent réel.

Lors de la conférence de publication des résultats, Zhang Peng a placé explicitement Zhipu dans ce repère. Il a déclaré que l’entreprise « continuera de suivre, en Chine, le chemin commercial d’Anthropic : la logique repose sur l’intelligence des modèles comme fondation, et sur la plateforme API comme moteur ».

Les données concrétisent ce jugement. En 2025, le chiffre d’affaires annuel de Zhipu s’est élevé à 724 millions de RMB, en hausse de 131,9 %, dépassant l’objectif fixé en début d’année par l’entreprise ; la marge bénéficiaire brute globale annuelle a été de 41 %, bien au-dessus du niveau de l’industrie. La plateforme MaaS API ARR est d’environ 1,7 milliard de RMB, et sur les 12 derniers mois, elle a progressé de 60 fois. La marge bénéficiaire brute de la plateforme MaaS a augmenté de près de 5 fois, à 18,9 %.

Mais ce qui montre le mieux que la roue tourne, plutôt que les chiffres financiers, c’est la « densité d’intégration ».

Parmi les dix premiers acteurs internet en Chine, 9 d’entre eux font des appels approfondis quotidiens au modèle GLM. Dans les 24 heures suivant chaque publication de nouvelle génération de modèles GLM, des produits de premier plan tels que TRAE/Coze de ByteDance, Qoder d’Alibaba, CodeBuddy de Tencent, CatPaw de Meituan, WanQing de Kuaishou, Baidu Intelligent Cloud et WPS Office ont tous obtenu un accès officiel.

En regardant la longue traîne, plus de 4 millions d’utilisateurs entreprises et de développeurs continuent d’appeler en environnement de production réel, couvrant plus de 218 pays et régions dans le monde entier. GLM est devenu le modèle par défaut des plateformes de coding internationales comme Windsurf, OpenCode, et le modèle payant classé numéro un sur OpenRouter.

La densité d’intégration, c’est la densité de l’inremplaçabilité.

Pour que la roue tourne, le point de départ, ce sont les performances du modèle. La série GLM maintient continuellement la première place parmi les modèles open source dans le monde et la première place parmi les modèles chinois ; parmi tous les modèles mondiaux, elle suit constamment de près GPT, Claude et Gemini, et s’installe de manière stable dans le premier échelon de l’IA mondiale.

La manière dont GLM-5 est apparu est en soi une déclaration de positionnement. Il s’est hissé au premier rang des classements de popularité sur OpenRouter sous l’identité anonyme « Pony Alpha » ; des développeurs de la Silicon Valley ont alors spéculé qu’il s’agissait de Claude Sonnet 5 ou DeepSeek-V4 — une fois révélé, le jour du lancement, il a traité 4 milliards de tokens et 206k requêtes.

L’amélioration de la marge bénéficiaire brute confirme aussi l’augmentation de l’efficacité de la roue. Grâce à un co-design logiciel et matériel, ainsi qu’à des mécanismes côté inférence, la méthode d’attention clairsemée dynamique réduit le coût de déploiement à 50 % de l’ancien niveau, sans perte de performance ; côté client, la hausse des prix a joué un effet de filtrage positif : les clients prêts à payer pour l’efficacité gardent mieux la rétention et affichent une profondeur d’appels plus élevée.

Zhang Peng décrit ce « cercle vertueux » comme : « La percée du haut de gamme de l’intelligence pousse à une augmentation exponentielle du volume de consommation de tokens — plus le modèle est fort, plus les scénarios d’utilisation sont profonds, et plus le volume d’appels de tokens est élevé. » « Les feedback positifs commerciaux soutiennent nos investissements plus importants dans la puissance de calcul et la R&D, élevant encore davantage le haut de gamme de l’intelligence ; cette roue est déjà en mouvement. »

Le prochain point d’explosion de l’économie des tokens

Le 26 février, le PDG de Nvidia, Huang Renxun, lors d’un appel sur les résultats, a répété à plusieurs reprises un jugement : « le calcul est un revenu, l’inférence est un revenu. » Sans puissance de calcul, on ne peut pas générer de tokens ; sans tokens, on ne peut pas générer de croissance des revenus.

Les données mondiales confirment cette idée. Au cours de la dernière année, le volume hebdomadaire d’appels de tokens des dix meilleurs modèles sur OpenRouter est passé de 242k à près de 206k ; la hausse dépasse 10 fois. Ce n’est pas seulement la croissance des utilisateurs : la profondeur de consommation de tokens par utilisateur progresse aussi. Chaque fois qu’un Agent termine une tâche, il doit effectuer davantage d’étapes et appeler davantage d’outils ; la consommation de tokens s’accumule étape par étape.

À l’ère de l’Internet, le gratuit est la voie royale, car le coût marginal du trafic tend vers zéro. À l’ère de l’IA, c’est totalement différent : chaque inférence brûle de la puissance de calcul, et les tokens ont naturellement un prix. Cela signifie que les entreprises d’IA sont assises, dès le premier jour, sur un modèle commercial « facturation à la quantité ».

Zhang Peng a donné son cadre de jugement : en 2025, les mots-clés de Zhipu sont « haut de gamme de l’intelligence », et en 2026, le mot-clé est « quantité de tokens ». « Des applications représentées par OpenClaw ont déclenché la frénésie de consommation de tokens. Nous continuerons d’augmenter les investissements, de pousser les performances d’inférence au maximum, non pas pour la rentabilité à court terme, mais pour soutenir cette courbe exponentielle de consommation de tokens de haute qualité qui ne cesse de monter. »

Au cours de la dernière année, Zhipu a fait évoluer cinq générations de modèles : l’histoire qu’elle raconte, c’est comment la consommation de tokens est amplifiée de façon continue.

Zhang Peng a décomposé le chemin de cette trajectoire paradigmatique : pendant la phase de coding IA, le modèle apprend à écrire du code, mais l’essence est d’être un assistant ; pendant la phase de « Vibe coding », Code est bon marché, l’idée vaut de l’or ; pendant la phase d’« Agentic engineering », l’IA comprend les besoins de manière autonome comme un ingénieur, définit un plan, écrit, teste, puis itère et corrige ; à un stade long horizon, l’IA doit travailler continuellement sur des échelles de temps plus longues, comme un expert senior, et livrer des résultats.

À chaque saut, la consommation de tokens par tâche pour une tâche unique est multipliée par un facteur de niveau « fois » par rapport à l’étape précédente. Selon des informations, le prochain lancement officiel, GLM-5.1, fera des optimisations systématiques autour des long horizon tasks, précisément en visant ce prochain palier.

L’explosion d’OpenClaw a transformé cette tendance de la théorie en réalité. En mars 2026, Zhipu a lancé Claw Plan : en deux jours, le nombre d’utilisateurs abonnés a dépassé 100k ; en 20 jours, il a franchi 400k. Un Agent d’IA fonctionne en autonomie 7×24 heures : chaque instance est un « employé numérique » qui brûle en continu des tokens.

La demande explose, et côté offre, il ne faut pas rompre la chaîne. GLM-5 a déjà terminé une adaptation poussée à sept plateformes de puces nationales, notamment Huawei Ascend, Moore Threads, et Cambricon. Zhang Peng a déclaré que la série GLM sur puces domestiques a déjà démontré une efficacité d’inférence comparable aux puces haut de gamme internationales. La puissance de calcul est autonome et contrôlable : la capacité de production de tokens ne sera pas bloquée au goulot d’étranglement.

Zhipu a condensé toute cette logique en un concept : TAC (Token Architecture Capability), « capacité d’architecture de tokens ». TAC = volume d’appels intelligents × qualité intelligente × efficacité de conversion économique.

Zhang Peng estime que, à l’avenir, la mesure de la valeur ne sera plus de savoir combien d’informations sont maîtrisées, mais la capacité, en tant qu’architecte de tokens, à piloter les grands modèles et les Agents pour accomplir des tâches complexes. « L’objectif de Zhipu est de devenir une infrastructure qui améliore le TAC de l’ensemble de la société, afin que chaque token puisse se convertir en un surplus économique livrable. »

Anthropic, avec la même logique, a obtenu une valorisation de 380 milliards de dollars et un ARR de 19 milliards de dollars. Où se situe le plafond du modèle MaaS en Chine : ce rapport financier est le premier point de repère officiel.

Dans l’industrie des grands modèles, les « pénuries d’offre »—ces quatre mots—sont plus convaincants que n’importe quel chiffre de rapport financier. Quand une entreprise commence à s’excuser parce que « ça se vend en rupture de stock », tous les débats sur le pouvoir de fixation des prix peuvent être clos.

*Le contenu ci-dessus ne constitue pas un conseil en investissement, ne reflète pas les points de vue de la plateforme qui publie ; le marché comporte des risques, l’investissement nécessite prudence ; veuillez porter un jugement et prendre des décisions de manière indépendante.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.