Token est la « nouvelle monnaie » à l’ère de l’IA. En 2024, la guerre des prix de l’IA fait rage, les Tokens étant évalués en « li » ; en 2026, la demande de puissance de calcul explose, les fabricants de modèles et les fournisseurs de cloud augmentant collectivement leurs prix de Token.

Au cours des deux dernières années, l’industrie des grands modèles a connu une transition brutale de la guerre des prix à la guerre de la valeur, la valeur des Tokens étant réévaluée. En dehors des salaires, primes, actions, les Tokens sont même devenus une nouvelle arme dans les négociations salariales des ingénieurs de la Silicon Valley. La bataille pour l’écosystème autour des Tokens et la concurrence pour les ressources ont déjà commencé.

De la vague de baisse des prix à la vague de hausse

En 2026, les fabricants de modèles et les fournisseurs de cloud augmentent collectivement leurs prix de Token. Cette année, Zhipu a déjà publié deux annonces d’augmentation de prix. Le 16 mars, Zhipu a lancé le modèle de base GLM-5-Turbo, optimisé en profondeur pour le scénario OpenClaw, avec une hausse de 20 % du prix de l’API. Dans le forfait « Langouste » destiné aux utilisateurs individuels et aux entreprises, la carte mensuelle d’expérience Claw coûte 39 yuans/mois, incluant 35 millions de Tokens, et la carte avancée à 99 yuans/mois, incluant 100 millions de Tokens. En février, Zhipu a publié une annonce de révision tarifaire pour le Coding Plan, indiquant que « la demande du marché pour le GLM Coding Plan continue de croître fortement, avec une augmentation rapide du nombre d’utilisateurs et des appels », décidant de supprimer la promotion pour la première acquisition, tout en conservant les abonnements trimestriels et annuels, avec une hausse globale des prix à partir de 30 %.

Outre les fabricants de modèles, les fournisseurs de cloud augmentent également leurs prix collectivement. En raison du succès de l’abonnement Coding Plan, Alibaba Cloud a vu une explosion du volume d’appels API pour ses modèles, annonçant le 4 mars une ajustement temporaire des promotions pour la première acquisition, avec une offre limitée dans le temps chaque jour, jusqu’à épuisement. Le 18 mars, Alibaba Cloud a indiqué qu’en raison de la demande mondiale d’IA en explosion et de la hausse des coûts de la chaîne d’approvisionnement, le coût d’achat du matériel clé de l’industrie a considérablement augmenté, et à partir du 18 avril, les prix des services d’inférence IA, CPFS (version intelligente) et autres seront ajustés. Les services liés aux cartes de puissance de calcul comme Pingtouge Zhenwu 810E augmenteront de 5 % à 34 %, et le CPFS (version intelligente) de 30 %.

Baidu Cloud Intelligent a également annoncé qu’à partir du 18 avril, les produits liés à la puissance de calcul IA augmenteront d’environ 5 % à 30 %, et le stockage de fichiers parallèles d’environ 30 %. Tencent Cloud a annoncé qu’à partir du 13 mars, les modèles GLM 5, MiniMax 2.5, Kimi 2.5, passeront de la phase de test public à un service commercial officiel, avec une facturation à l’usage selon le modèle d’appel. Les prix des modèles de la série Hun Yuan ont également été ajustés : le prix d’entrée du modèle Tencent HY2.0 Instruct est passé de 0,0008 yuan/1000 tokens à 0,004505 yuan/1000 tokens, et le prix de sortie de 0,002 yuan/1000 tokens à 0,01113 yuan/1000 tokens.

Cependant, il y a deux ans, le « mouvement de baisse des prix des Tokens » reste vif dans la mémoire.

En 2024, la « guerre des modèles » voit encore l’industrie des grands modèles en pleine guerre de prix, avec les fournisseurs de cloud et les fabricants de modèles se livrant à une guerre de baisse de prix et de distribution de Tokens.

En mai de cette année-là, ByteDance a lancé une guerre des prix en proposant ses grands modèles à 0,0008 yuan/1000 tokens, suivi par Alibaba Cloud qui a annoncé une réduction maximale de 97 % pour Tongyi Qianwen, dont le modèle principal GPT-4 de Tongyi Qianwen, Qwen-Long, dont le prix d’entrée est passé de 0,02 yuan/1000 tokens à 0,0005 yuan/1000 tokens. Parallèlement, le crédit offert aux nouveaux utilisateurs de Zhipu est passé de 5 millions de Tokens à 25 millions de Tokens.

DeepSeek, qui entraîne des grands modèles à moindre coût, a dévoilé en mars dernier des informations clés sur son système d’inférence V3/R1. En optimisant le débit et la latence, si tous les Tokens sont calculés selon le tarif DeepSeek-R1, le coût-rendement peut atteindre 545 %.

La technologie est la base de la baisse des prix des modèles. Tan Dai, président de Volcano Engine, plateforme cloud de ByteDance, a déclaré en 2024 lors de la vague de baisse des prix de l’IA que la logique fondamentale de la baisse est la confiance dans la capacité à réduire les coûts par des moyens technologiques, et que le marché a besoin de grands modèles à prix plus bas.

« Il y a deux ans, la demande en puissance de calcul était principalement pour les entreprises, mais maintenant, c’est une « faim » de puissance de calcul pour les particuliers, ce qui a poussé les startups d’IA et les grandes entreprises à changer leur modèle commercial vers la consommation de Tokens », a déclaré Tian Feng, président de l’Institut de recherche Think Fast, ancien président de l’Institut de recherche sur l’intelligence de SenseTime.

Au cours des deux dernières années, l’itération rapide des modèles et la croissance massive des applications d’agents intelligents ont entraîné une demande continue de puissance de calcul, avec une capacité limitée pour des cartes d’inférence à haut rapport qualité-prix, et une augmentation significative des coûts des composants clés comme la mémoire et des infrastructures associées. Bernard Golden, PDG de Navica, société de conseil et d’investissement en technologie de la Silicon Valley, indique que toute l’industrie cherche frénétiquement plus de puissance de calcul.

Face à un déséquilibre entre l’offre et la demande, la hausse des prix devient inévitable.

« Un modèle plus intelligent exécute des tâches plus complexes, ce qui consomme énormément de ressources », a déclaré Zhang Peng, PDG de Zhipu, en réponse à la stratégie d’augmentation des prix. Il a expliqué que derrière l’exécution des tâches par l’agent intelligent, il y a des chaînes de réflexion et de raisonnement plus longues, qui interagissent avec l’infrastructure sous-jacente via la programmation, en déboguant et en corrigeant constamment les erreurs. La quantité de Tokens nécessaire pour répondre à une tâche est dix ou même cent fois celle pour une question simple. La hausse des prix reflète essentiellement une augmentation des coûts : « Le modèle est plus grand, plus puissant, et le coût de service correspondant augmente. Nous voulons le ramener progressivement à une fourchette de valeur commerciale normale. La dépendance à des prix bas à long terme n’est pas favorable au développement de l’industrie. »

Une croissance mille fois du volume d’appels de Tokens en deux ans

Au cours des deux dernières années, les fournisseurs de logiciels ont intégré, via des API standardisées, des capacités de génération de texte, d’image et de voix dans des plateformes de service client, de création de matériel marketing, de robots de service, etc. Les utilisateurs d’entreprise appellent ces capacités via API, en facturant à l’usage ou par abonnement, réduisant ainsi la barrière à l’entrée et l’investissement initial. Après tout, le coût d’une seule GPU H100 est d’environ 25 000 dollars, et le déploiement de plusieurs GPU dans un seul système coûte encore plus cher.

Ce mode de service permet aux grands modèles d’atteindre rapidement un large public, avec une explosion du volume d’appels de Tokens. Liu Liehong, directeur de l’Office national des données, a récemment révélé qu’à la fin de 2025, plus de 100 000 jeux de données de haute qualité avaient été construits en Chine. En mars de cette année, le volume moyen quotidien d’appels de Tokens en Chine a dépassé 140 trillions, soit une croissance de plus de mille fois par rapport à début 2024, et une augmentation de plus de 40 % par rapport à la fin 2025, lorsque le volume était de 100 trillions.

Tian Feng indique que, en 2024, la demande en puissance de calcul pour l’entraînement dépasse 50 %, mais en 2025, la situation s’inverse complètement. Si deux ans auparavant, c’était la guerre de « cent modèles », aujourd’hui, c’est la guerre de « cent langoustines ».

La demande explosive en inférence, la liaison profonde entre le service d’inférence et la consommation de Tokens, constitue le scénario de puissance de calcul le plus important et le plus rapide en croissance. La performance continue des modèles pousse la consommation de Tokens en flèche, et la large pénétration d’applications intelligentes comme la programmation IA, « Langouste » (OpenClaw), etc., provoque une explosion de la demande de Tokens. OpenClaw est surnommé « trou noir à Tokens ». Pour les entreprises et particuliers utilisant Langouste, le Token est le principal frein à la croissance.

Tian Feng indique que la consommation de Tokens pour l’exécution automatique des tâches par l’agent intelligent est de 4 à 15 fois celle d’un simple Q&A. Luo Xuan, entrepreneur en IA, utilise OpenClaw pour réaliser des recherches complexes, consommant des millions voire plus de Tokens. Pour réduire ses coûts, il recommande de s’inscrire chez de nouveaux fournisseurs de cloud ou de modèles pour obtenir des Tokens gratuits, mais il déplore toujours que « Token est trop cher ».

Les tâches de programmation, de chat, de bureautique, etc., consomment aussi des Tokens. Au sens plus large, la génération d’images facturée au nombre d’images, ou la génération de vidéos selon la durée et la résolution, consomment également beaucoup de puissance de calcul. La fermeture de l’application Sora par OpenAI en est un exemple. La production de vidéos nécessite d’énormes ressources de calcul et d’électricité, ce qui représente une dépense énorme pour toute entreprise, et la fermeture de Sora libère beaucoup de ressources.

La demande en puissance de calcul ne concerne pas seulement la croissance des GPU, mais aussi tous les composants matériels liés, qui fluctuent également et deviennent un facteur limitant.

« La gestion du refroidissement, de l’éclairage, de l’électricité des serveurs, le coût électrique des centres de données représente environ 60 %, et avec la hausse des prix de l’énergie comme le pétrole et le gaz naturel, la mémoire connaît une hausse cyclique de 5 ans », indique Tian Feng. La hausse des coûts énergétiques et matériels entraîne la hausse des prix de la puissance de calcul.

Huang Zhiming, vice-président mondial de Cisco et directeur général pour la Chine, a déclaré à Pengpai Tech que, à court terme, l’investissement dans le matériel et la construction d’usines ne peut pas être réalisé en un ou deux mois, et que la fluctuation de l’offre et de la demande durera encore un certain temps. Hou Shengli, vice-président senior et CTO de Cisco Greater China, a ajouté que la capacité de production pour suivre la demande nécessite environ deux ans : « La mise en place d’usines de mémoire prend au moins deux ans, et il n’y aura pas d’amélioration avant la fin 2027. La reconstruction d’usines et la mise en place de lignes de production ne sont pas si rapides. » Cependant, Huang Zhiming pense qu’avec l’expansion de la population utilisatrice et la généralisation des applications, les coûts finiront par devenir plus abordables et populaires.

Yao Xin, fondateur de Piao Cloud Computing (Shanghai), indique à Pengpai Tech qu’aujourd’hui, le principal frein à l’IA et à la puissance de calcul ne réside pas dans les puces de haute gamme, mais dans les composants IT classiques et les pièces d’infrastructure traditionnelles. Au cours des dix dernières années, la chaîne d’approvisionnement en mémoire, disques durs, commutateurs, etc., a connu une croissance régulière, équivalente à celle du PIB mondial, avec une demande stable à long terme. Mais la croissance explosive de l’IA a rompu cet équilibre. La livraison de GPU a explosé, et dans cette « inflexion » de la demande, la capacité d’approvisionnement des composants périphériques a été dépassée. « La capacité de production de puces haut de gamme a été augmentée, mais pas celle des autres composants. Tout le monde a été durement touché, et c’est pourquoi la production de composants traditionnels comme la mémoire et les disques durs a été fortement augmentée. »

L’alternance de l’offre et de la demande, vers un équilibre final

« Aujourd’hui, un Token coûte plus cher qu’un stagiaire, et dans trois à cinq ans, il sera bon marché », pense Tian Feng. Il estime que, à court terme, la hausse des prix des puissance de calcul résulte d’un déséquilibre entre l’offre et la demande. Mais, selon le cycle des semi-conducteurs, l’industrie de la fabrication connaît des cycles de capacité : après expansion, la nouvelle capacité se concentre, le marché est sursaturé, et les prix baissent, voire il y a une surcapacité. Sur le plan énergétique, la Chine accélère la transition vers une nouvelle structure énergétique, ce qui pourrait encore réduire les coûts énergétiques. À moyen terme, le prix dépendra de l’amélioration des capacités des modèles de base — chaque nouvelle version, tous les trois mois, peut répondre à des besoins non satisfaits auparavant, libérant de nouvelles demandes, ce qui pousse à la hausse le prix de la puissance de calcul ; à long terme, cela dépendra de l’évolution des capacités de raisonnement, entraînant une baisse continue des coûts de puissance de calcul.

Depuis deux ans, l’offre et la demande alternent. Tian Feng indique que DeepSeek représente un pic d’innovation pour réduire les coûts, tandis que la « explosion » de la productivité avec « Langouste » crée un pic de demande. « Mais cela ne signifie pas que, lorsque la demande explose, le coût du raisonnement ne diminue pas. La vitesse d’explosion est simplement plus rapide que la baisse des coûts du raisonnement. En 3 à 5 ans, le coût global de la puissance de calcul et des Tokens diminuera fortement. »

Yao Xin affirme que l’IA est entrée dans un « point singulier » : « Nous entrons dans une période de croissance rapide, dix ou cent fois plus rapide dans un ou deux ans. Toutes les industries qui ne sont pas prêtes à faire face à cette croissance connaîtront une pénurie à court terme. Mais, comme des ondulations, cela se diffusera lentement, et finira par se stabiliser. »

La hausse des prix des Tokens cache aussi une évolution de la logique commerciale. Jensen Huang, PDG de Nvidia, a évoqué à plusieurs reprises la « structure en cinq couches » de l’IA : « La couche inférieure est l’énergie, puis les puces, l’infrastructure, les modèles et enfin les applications, qui offrent les plus grands bénéfices économiques. »

« L’IA d’aujourd’hui ressemble à l’époque d’Internet en 2000, où personne ne comprenait vraiment ce que l’Internet pouvait faire, mais tout le monde se lançait dans la construction de sites. » a déclaré Hou Shengli. Avec l’application et l’innovation continues, en 2005-2006, de plus en plus de scénarios « Internet+ » ont émergé, et divers services se sont intégrés. Le développement de l’IA est également prometteur, comme le prédisent largement, et 2026 sera l’année de l’agent intelligent, avec une multitude d’applications.

Ces agents intelligents s’intègrent dans les téléphones, ordinateurs, voire lignes de production industrielles. « La demande de productivité par l’IA est presque infinie, la seule limite étant le prix. Si le prix augmente, la demande diminue ; si le prix baisse, la demande augmente », a déclaré Tian Feng. Même aujourd’hui, les grandes entreprises ne pratiquent pas une augmentation uniforme des prix. « D’un côté, elles augmentent le prix du cloud pour le B2B, et de l’autre, elles proposent des essais gratuits ou des crédits Token pour conquérir le marché B2C. » Tian Feng admet que la situation actuelle ressemble à celle de l’Internet au début : la conquête des utilisateurs par les grandes entreprises est l’objectif ultime, mais la compétition pour les développeurs est encore plus cruciale.

Autrefois, les développeurs étaient des programmeurs du monde entier, mais aujourd’hui, de nombreux non-techniciens maîtrisent le Vibe Coding (programmation par ambiance). Ils sont à la fois consommateurs et créateurs de code. En verrouillant les développeurs, les grandes entreprises peuvent faire en sorte que leurs résultats de développement restent sur leur cloud.

Les géants de l’Internet offrent des crédits Token à leurs employés pour encourager l’utilisation de l’IA. Selon le site JiJian News, Alibaba travaille sur un programme interne permettant aux employés d’accéder à des crédits Token pour utiliser des modèles et outils d’IA avancés dans leur travail. Les employés peuvent utiliser gratuitement des outils payants comme Wukong, la plateforme de programmation agent intelligent Qoder, pour la R&D et la bureautique, avec des crédits fournis par l’entreprise. L’achat d’un abonnement Coding Plan ou d’outils de développement IA externes peut également faire l’objet d’un remboursement.

Les scénarios d’utilisation de l’IA pour améliorer la productivité ne se limitent pas à la programmation, mais incluent aussi la création de contenu et le travail professionnel. MiniMax a même mis à jour son ancien Coding Plan en Token Plan, supportant le modèle multimodal MiniMax, pour saisir l’opportunité Token.

« Franchement, il n’y a pas encore beaucoup de besoins urgents pour les modèles, c’est pourquoi la majorité adopte un modèle d’abonnement mensuel. La raison pour laquelle le Token est si suivi, c’est que le nombre d’utilisateurs mensuels et la consommation par utilisateur sont directement liés à la croissance du chiffre d’affaires », a déclaré Tian Feng. Cela crée une forte fidélité des utilisateurs : si le produit est suffisamment pratique, même à un prix un peu plus élevé, ils seront prêts à payer pour une meilleure expérience. De plus, avec 5 millions de Tokens, on peut vendre 22 yuans ou 400 yuans, la prime étant directement liée aux capacités du modèle de base et de l’agent intelligent. Tian Feng pense qu’en essence, le Token représente un minerai d’or encore inexploité.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
WCTCTradingKingPK
162.07K Popularité
#
CryptoMarketSeesVolatility
227.41K Popularité
#
IsraelStrikesIranBTCPlunges
31.85K Popularité
#
rsETHAttackUpdate
71.74K Popularité
#
US-IranTalksStall
178.47K Popularité

Épingler

Du collectif à la baisse des prix au collectif à la hausse, pourquoi la « Token économie » a-t-elle changé de cap en deux ans

Sujets populaires

WCTCTradingKingPK

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

rsETHAttackUpdate

US-IranTalksStall

Épingler