“Token” économie : l'IA doit refaire ses comptes

Pour investir en Bourse, regardez les rapports d’analyse des analystes de Golden Qilin : faisant autorité, professionnels, opportuns, complets — aidez-vous à découvrir des opportunités de thèmes à fort potentiel !

Source : Beijing Business Today

« Token » est en train de devenir le terme le plus en vogue dans l’industrie de l’IA. Lors du Forum annuel Zhongguancun 2026 récemment tenu, les discussions autour de Kimi, avec le fondateur et PDG Yang Zhilin, et le PDG de Zhipu Zhang Peng, ne peuvent pas l’éviter. Yang Zhilin définit Token comme le PIB du futur, tandis que Zhang Peng affirme clairement que « la concurrence à long terme par le biais de prix bas ne favorise pas le développement de l’industrie ». À plus de 1000 kilomètres de là, le vice-président exécutif senior de Tencent, Tang Daosheng, et le vice-président Li Qiang ont eux aussi abordé Token : le premier dit que « à capacités de modèle identiques, avec des conceptions différentes de Harness (échafaudage), les coûts des Token peuvent varier énormément », et le second pense que le changement de Token est facile, que l’adhérence est faible, et qu’une fois les subventions stoppées, les clients peuvent facilement se perdre. Lorsque des internautes surnommés « Dragon虾 » (OpenClaw) déclenchent une consommation de Token qui explose de façon exponentielle, Token n’est plus seulement un terme technique : c’est une variable clé qui touche au modèle économique.

« Brûler » les coûts de Token

La vague d’agents intelligents lancée par le « Dragon虾 » fait exploser la quantité de Token consommée de manière exponentielle. Qu’est-ce que Token ? Selon la définition de l’Administration nationale des données, le Token est l’unité minimale par laquelle les grands modèles d’IA traitent l’information. Les Token sont mesurables, tarifables et échangeables.

Zhang Ting, responsable produit de la plateforme Bai Du Qianfan, a expliqué au journaliste de Beijing Business Today : « Ce n’est ni exactement une lettre, ni exactement un mot, mais une sorte de “fragment de langage” situé entre les deux. Par exemple, le caractère chinois “我” est un Token, “今天” pourrait être un Token, mais “internationalisation” peut être décomposé en “国际” et “化”, soit deux Token. Comme le langage auquel font face les grands modèles est universel, le Token est un dénominateur commun “maximal” qui permet au modèle de traiter toutes les langues et tous les symboles d’une manière unifiée. »

D’après les informations de l’Administration nationale des données, au début de 2024, le volume d’appels quotidiens de Token en Chine s’élevait à 1000 milliards ; d’ici la fin 2025, il est monté à 100 000 milliards ; en mars 2026, il a déjà dépassé 140 000 milliards, soit une croissance de plus de mille fois en deux ans.

La réaction des fournisseurs de cloud et des entreprises de grands modèles d’IA a commencé à partir de février : Zhipu a annulé la remise sur premier achat du GLM Coding Plan, et les prix des packs ont globalement augmenté d’au moins 30 %. Début mars, Tencent Cloud a déjà relevé le prix de deux modèles développés en interne : la hausse du modèle Tencent HY2.0 Instruct atteint 463 %, puis, dans la seconde moitié du mois, Aliyun et Baidu Intelligent Cloud ont annoncé le même jour une hausse de prix de leurs capacités de calcul d’IA, avec une hausse maximale de 34 %.

Concernant la logique qui explique l’explosion des agents intelligents et la hausse de la consommation de Token, Zhang Peng a récemment fourni une explication détaillée : lorsqu’un agent fait face à une tâche complexe, la chaîne de réflexion du modèle est longue, ce qui entraîne une consommation de Token très élevée, et donc des coûts d’inférence du modèle qui augmentent en conséquence ; par conséquent, ramener le prix des Token à leur valeur commerciale normale. Une concurrence durable fondée sur des prix bas n’est pas non plus favorable au développement de l’ensemble de l’industrie.

Lors d’entretiens avec des médias dont Beijing Business Today, Li Qiang a déclaré : « L’économie des Token sera rapidement prise en compte par tous les clients. Si l’on ne considère que le volume de consommation sans tenir compte de l’économie, il est possible que le prix ou le coût côté utilisateur soit plus élevé, ce qui aura une influence négative sur le développement long terme et sain de l’entreprise. »

Harness « l’échafaudage » caché sous la surface

Concrètement, comment Token est-il tarifé ? Zhang Ting a donné un exemple détaillé au journaliste de Beijing Business Today : « Par exemple “Quel temps fait-il à Pékin aujourd’hui ?”, en ajoutant la réponse de l’IA, on consomme environ 50 à 100 Token. Si vous demandez à l’IA d’écrire un essai de 800 mots, en comptant votre prompt et la sortie complète, cela consomme environ 1000 à 1500 Token ». « Converti en argent : aujourd’hui, sur la plateforme Bai Du Qianfan, les prix des modèles dominants se situent à quelques centimes par million de Token. Autrement dit, 1 yuan permet à l’IA d’écrire environ 1000 essais de 800 mots. » Zhang Ting a dit.

Mais lorsque la consommation de Token augmente de manière exponentielle, un problème plus profond apparaît : tous ces Token ne sont pas forcément dépensés sur le « bon endroit ». « Les Token ressemblent à de l’essence, et les agents à un moteur de voiture. Si vous ne faites attention qu’à la consommation d’essence sans considérer l’économie du moteur ni la capacité de sortie, le client finira aussi par abandonner ». Li Qiang interprète l’efficacité des Token à travers la consommation de carburant.

Li Di, fondateur de Nextie (明日新程) et « père de Xiaobing », a aussi déclaré au journaliste de Beijing Business Today : « La tendance à la consommation de Token pointe vers un phénomène intéressant : Tokenmaxxing (c’est-à-dire un concours de刷量 de Token). Aujourd’hui, beaucoup de développeurs et d’entreprises sont en train de “booster” frénétiquement la consommation de Token, au point de la considérer comme une démonstration de “muscles de puissance de calcul”. Mais cette combustion sans limites entraîne un déséquilibre énorme de ROI (taux de retour sur investissement). »

Dans ce contexte, un autre concept, Harness, est en train de sortir rapidement de la niche, à la fois en Silicon Valley et dans les milieux techniques domestiques.

Li Di a expliqué en détail : « La traduction littérale de Harness est “harnais” ou “mors”. Si le grand modèle est comme un cheval sauvage ayant une force immense mais une direction incertaine, alors Harness est l’ensemble de systèmes de contrainte qui lui permet de courir sur une trajectoire donnée. »

« Le déploiement de l’IA, ce n’est pas seulement une question d’algorithmes, c’est aussi une question d’ingénierie », a avancé Tang Daosheng. « À capacités de modèle identiques, la conception de différents échafaudages ou Harness, par exemple pour savoir quels outils le modèle appelle, l’ingénierie de contexte en couches, la gestion de la mémoire longue, la mise en œuvre des workflows, etc., a une grande influence sur les effets d’utilisation réels et sur le coût des Token. »

Luofu Li, responsable des grands modèles de Xiaomi MiMo, a également mentionné ce terme en expliquant la valeur d’OpenClaw : « OpenClaw pousse très haut les plafonds de ces modèles “semi-open source” domestiques, et en même temps, grâce à toute une série de conceptions comme une suite de Harness (système de contrôle de contraintes), il garantit le niveau d’achèvement des tâches du modèle et la précision, de sorte que le seuil minimal est aussi solidement assuré. »

Les fournisseurs de cloud reconstruisent le « socle »

À un niveau d’ingénierie concret, le GPT/plateforme de développement d’agents ADP de Tencent Cloud connecte les agents à « une bibliothèque » via des capacités comme RAG (génération augmentée par la recherche) et une base de connaissances, afin que les experts du secteur soient toujours en ligne. Ensuite, Claw tourne dans un bac à sable de sécurité sur Agent Runtime : Claw, en tant que centre nerveux du système intelligent, découvre et télécharge des Skills depuis la base de compétences, apprend et accumule en continu les capacités nécessaires à la connexion aux systèmes externes. Grâce aux grands modèles, il envoie et reçoit des instructions de l’extérieur, déclenche des actions ; la solution de sandbox d’AgentRuntime peut aussi être utilisée pour valider les résultats de programmes en apprentissage par renforcement avec grands modèles, améliorant l’efficacité de l’entraînement de l’apprentissage par renforcement.

Ce n’est qu’un aperçu de la partie émergée de l’iceberg des infrastructures.

« L’ultime du calcul, c’est peut-être l’électricité. » Dans une interview, Li Qiang a révélé que Tencent a commencé à explorer la coopération calcul-énergie il y a deux ans. « Avec nos partenaires, en Mongolie intérieure, nous utilisons directement l’énergie éolienne locale et le stockage d’énergie optique pour alimenter des centres de données, en combinant l’énergie hydrogène et le stockage d’énergie pour équilibrer les pics et les creux de l’énergie propre, tout en coordonnant les périodes de pointe et les périodes creuses de puissance de calcul. D’un côté, cela réduit fortement les coûts d’électricité ; de l’autre, cela réduit les émissions de carbone. »

Un autre changement se produit dans le mécanisme de planification. « Aujourd’hui, l’infrastructure de l’ère du cloud computing est conçue pour servir les ingénieurs humains, et non pour l’IA. À long terme, l’infrastructure devrait être un ensemble complet : toute cette suite devrait pouvoir évoluer et s’itérer de manière autonome, former une organisation autonome. Autrement dit, toute la suite d’infrastructure est gérée par un CEO reconnu. Il pourrait s’agir d’un Claw, qui, selon les besoins de ses clients IA, s’itère de manière autonome l’infrastructure », a expliqué Xia LiXue, cofondateur et PDG de 无问芯穹.

À noter : à l’heure actuelle, les principaux fournisseurs de cloud possèdent une double identité. Aliyun, Tencent Cloud et Baidu Intelligent Cloud sont à la fois des fournisseurs de Token et des consommateurs de Token.

D’après les objectifs récemment annoncés par Aliyun, au cours des cinq prochaines années, les revenus annuels de la commercialisation du cloud et de l’IA dépasseront 1000 milliards de dollars. Par ailleurs, le groupe Alibaba fournit des quotas de Token aux employés, afin d’encourager ces derniers à utiliser en travail des modèles et des outils d’IA avancés.

Li Qiang affirme : « Les Token sont certainement l’une des mesures de gestion très importantes pour Tencent Cloud, mais Tencent ne les place pas comme priorité absolue, et n’essaie pas de les pousser avec des politiques de récompense extrêmes. Tencent préfère consacrer ses efforts à développer de meilleurs moteurs. En fournissant de bons produits d’IA, on génère de vrais volumes de consommation de Token. » En 2025, Tencent Cloud réalise une rentabilité à grande échelle. « En 2026, nous ne voulons pas être trop agressifs », a dit clairement Li Qiang.

Quand 140 000 milliards de Token frappent l’industrie, une autre ronde de confrontation a déjà commencé.

Beijing Business Today, journaliste Wei Wei

		Déclaration de Sina : cette information est une reprise provenant d’un média partenaire de Sina. La publication sur Sina.com vise uniquement à transmettre davantage d’informations, et ne signifie pas que Sina adhère à ces points de vue ni ne confirme la description. Le contenu de l’article est uniquement fourni à titre de référence et ne constitue pas un conseil en investissement. Les investisseurs agissent sur la base de leurs propres décisions ; les risques sont assumés par eux.

Des informations massives et une analyse précise : tout est sur l’application Sina Finance

Rédacteur en chef : Gao Jia

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler