En mai 2026, une annonce a suscité une attention généralisée dans l'industrie : une entreprise technologique n'ayant pas fixé de limite à la licence d’utilisation de Claude pour ses employés, la consommation mensuelle de tokens équivalait à environ 500 millions de dollars. Ce cas extrême mérite d’être examiné non pas tant pour son ampleur, mais pour la rupture dans la logique de mesure qu’il révèle : cette entreprise assimilait la consommation de tokens à une mesure de l’intensité d’utilisation de l’IA par ses employés, sans établir de mécanismes de contrôle liés à la production commerciale.

Si cette “explosion de facture” relève d’une négligence administrative, alors les pratiques internes de géants comme Meta ou Amazon dévoilent des problématiques plus profondes. Meta a lancé un classement nommé “Claudeonomics” pour suivre la consommation de tokens de plus de 85 000 employés, avec des titres comme “Légende du Token” ou “Connaisseur du Modèle” pour encourager le classement. Les données montrent qu’en 30 jours, la consommation totale a atteint environ 60 000 milliards de tokens, ce qui, selon le prix public d’Anthropic, correspond à une facture d’environ 900 millions de dollars ; le top utilisateur a consommé environ 281 milliards de tokens en un mois, soit plus de 140 000 dollars. Chez Amazon, le classement “KiroRank” visait initialement à promouvoir l’application de l’IA dans les scénarios commerciaux, mais a fini par inciter certains employés à effectuer délibérément des opérations sans but pour “gratter des points”, jusqu’à ce qu’un vice-président supérieur leur ordonne de “ne pas utiliser l’IA pour l’IA”. La consommation de tokens, en tant qu’unité de mesure technique, a été dévoyée en un critère de gestion interne, créant ainsi un décalage massif dans les incitations.

La question centrale qui en découle est : la consommation de tokens peut-elle servir de critère pour évaluer l’efficacité d’un agent IA, d’une entreprise ou d’un employé ? Si la réponse est non, quels indicateurs ont réellement une valeur d’évaluation ?

Nous pensons qu’utiliser la consommation de tokens comme indicateur est risqué, car cela confond “coût” et “valeur”, ainsi que “processus” et “production”. À l’heure où les agents deviennent la norme dans les applications IA, le véritable actif n’est pas le token, mais l’agent lui-même.

II. Comment l’actif token est-il devenu une réalité ?

2.1 La maturité commerciale de la valorisation par token

Le token, en tant que l’unité minimale de traitement de texte par les grands modèles, est désormais la base de la tarification dans l’industrie de l’IA. En mars 2026, le Comité national de normalisation des termes scientifiques et techniques a officiellement nommé “Token” en chinois “词元” (mot élémentaire), en lançant une phase d’essai accessible à tous. L’Administration nationale des données a ensuite défini ce terme comme “l’unité de règlement dans l’ère intelligente”. Selon cette administration, au premier trimestre 2026, le volume moyen quotidien d’appels de tokens en Chine a dépassé 140 000 milliards, soit une croissance de plus de mille fois par rapport à début 2024. Cette standardisation reflète la formation d’un consensus industriel sur le système de tarification basé sur les tokens.

Sur le plan des prix, le marché des tokens est aujourd’hui très fragmenté. Sur le plan international, pour des modèles principaux, le prix d’entrée pour GPT-4o d’OpenAI est de 2,5 dollars par million de tokens, avec une sortie à 10 dollars ; Claude Sonnet 4.6 facture 3 dollars d’entrée et 15 dollars de sortie. En avril 2026, OpenAI a lancé officiellement la série GPT-5.5 et la version avancée GPT-5.5 Pro, avec une tarification API de 30 dollars pour l’entrée et 180 dollars pour la sortie par million de tokens. Parallèlement, des modèles locaux mènent une guerre des prix féroce : le 27 mai 2026, Xiaomi a annoncé une réduction permanente jusqu’à 99 % pour la série MiMo-V2.5, avec un prix d’entrée pour la mise en cache de 0,025 yuan par million de tokens ; DeepSeek a lancé la série V4, avec le V4-Pro à 0,025 yuan lors des promotions. Il n’existe pas de “valeur équitable” unifiée pour l’unité de tarification par token — selon le modèle et le contexte, la même consommation de tokens peut correspondre à des prix très différents, allant d’une centaine à plusieurs milliers de fois.

2.2 L’émergence du “Tokenmaxxing” et ses enjeux

La légitimité technique et réglementaire de la valorisation par token, ainsi que sa déviation en tant que critère de gestion interne, présentent une fracture dangereuse. Le phénomène “Tokenmaxxing” a commencé à se répandre dans les entreprises vers 2025 : la logique sous-jacente est que, puisque l’entreprise a déjà acheté des outils IA, les employés doivent maximiser leur utilisation pour optimiser le retour sur investissement.

Cependant, les données révèlent la fragilité de cette logique. Certaines études estiment qu’un dollar dépensé en tokens IA peut entraîner une perte implicite de 0,5 à 0,8 dollar, en raison d’erreurs, de réécritures ou de retards dans la revue de code. Des analyses indiquent que les 10 % des utilisateurs les plus intensifs de Claude Code consomment environ dix fois plus de tokens que les développeurs moyens, pour une production seulement deux fois supérieure. Amazon et Meta ont déjà fermé leurs classements internes de tokens, tandis qu’Uber a épuisé son budget annuel en seulement quatre mois. Le secteur passe d’une narration “plus d’IA, plus de succès” à une phase prudente où l’on s’interroge sur la “valeur réelle de l’argent dépensé”.

2.3 L’émergence de l’économie des agents intelligents

Cependant, le débat centré sur la consommation de tokens ignore presque totalement une transformation structurelle en cours : les agents intelligents évoluent de simples “capacités additionnelles” des grands modèles vers des entités technologiques et économiques indépendantes. En mai 2026, le Bureau national du cyberespace, la Commission nationale du développement et de la réforme, ainsi que le Ministère de l’industrie et de l’information ont publié conjointement le “Plan de mise en œuvre pour la norme et l’innovation dans l’application des agents intelligents”, affirmant que ces derniers constituent une forme importante de produits et services d’IA. Lors de la conférence des développeurs d’Anthropic en mai 2026, Claude Code a été présenté comme “l’infrastructure d’automatisation asynchrone pour les équipes d’ingénierie”, passant d’un simple assistant de programmation à une “infrastructure de base pour l’automatisation”. La stratégie “Agents gérés” d’Anthropic illustre cette évolution : les fabricants commencent à vendre directement l’infrastructure d’exécution des agents, déplaçant leur modèle économique de la vente de tokens à celle de la vente de capacités d’exécution.

Dans ce contexte, la limite de la mesure par consommation de tokens devient de plus en plus évidente, accélérant la recherche de systèmes d’évaluation alternatifs.

III. La pertinence du token comme indicateur de mesure ?

3.1 Quatre défauts structurels du token comme indicateur

Premier, la confusion entre coût et valeur. Lors du congrès Create2026 de Baidu, Robin Li a déclaré : “Le token ne représente que le coût, pas le bénéfice ; il mesure l’investissement, pas la production.” Le professeur Ma Shaoping de l’Université Tsinghua explique que “le token lui-même ne possède pas d’intelligence, c’est simplement un vecteur d’information ; l’intelligence de l’agent IA réside dans la modélisation de la relation entre les séquences de tokens.” Utiliser la consommation de tokens comme indicateur de performance revient à une usine qui évalue sa production en fonction de sa consommation d’électricité — plus d’électricité ne signifie pas forcément plus de production, mais peut indiquer une inefficacité ou une gestion défaillante.

Deuxième, le manque de référence de mesure entre modèles et tâches. La façon dont différents grands modèles calculent les tokens varie, et des ajustements dans leurs tokenizers peuvent entraîner des différences significatives dans la consommation pour un même texte. La quantité de tokens nécessaire pour réaliser une même tâche varie également selon le contexte. Plus fondamentalement, lorsque la tarification par token présente déjà des écarts de prix de plus d’un ordre de grandeur entre fournisseurs, utiliser cette métrique comme référence d’efficacité devient incohérent.

Troisième, la distorsion des incitations. Lorsqu’on intègre la consommation de tokens dans l’évaluation de la performance, cela pousse à une “distorsion des indicateurs” : au lieu de chercher à utiliser le moins de tokens pour une tâche optimale, les employés peuvent augmenter artificiellement la consommation en allongeant la chaîne de tâches ou en ajoutant des étapes redondantes. Meta et Amazon ont déjà expérimenté cette dérive.

Quatrième, la difficulté à mesurer la qualité du résultat. Un agent intelligent capable de résoudre une tâche complexe en une seule étape consommera probablement moins de tokens qu’un agent moins efficace, qui doit faire plusieurs essais, revenir en arrière ou affiner sa réponse. Plus la consommation de tokens est élevée, souvent, plus l’efficacité opérationnelle est faible — ce qui va à l’encontre de l’objectif d’évaluation.

3.2 Redéfinir l’actif principal : l’agent intelligent

L’analyse ci-dessus mène à une conclusion fondamentale : le token est une ressource consommée, tandis que l’agent intelligent est un actif créateur de valeur. Leur relation est comparable à celle d’un moteur électrique et de l’électricité qu’il consomme — on peut mesurer la consommation totale, mais ce qui compte réellement, c’est la quantité de travail effectué ou le produit généré.

La stratégie d’Anthropic en témoigne. La nouvelle version de Claude, sortie en mai 2026, met l’accent sur “le codage agentique, l’utilisation de l’ordinateur, le travail de connaissance, l’analyse financière” — c’est-à-dire que l’agent peut intervenir dans des scénarios réels. Plus important encore, Anthropic a adopté une stratégie de plateforme dans ses agents gérés : le fabricant vend désormais directement l’infrastructure d’exécution des agents, déplaçant la valeur du simple token vers la capacité d’exécution.

Selon le responsable de Claude Code, à prix d’abonnement classique, le produit n’est pas rentable. Cela montre que la tarification uniquement par token ne couvre pas la structure réelle des coûts : la valeur de l’agent réside dans la qualité de la réalisation des tâches, le degré d’automatisation et l’intégration dans les flux de travail, qui ne peuvent pas être captés par la seule consommation de tokens.

3.3 L’émergence de nouvelles références d’évaluation

Face à l’insuffisance du seul critère de consommation de tokens, l’industrie explore des alternatives. Sur le plan de la réalisation de tâches, le benchmark SWE-bench Verified est devenu une référence rigoureuse pour les agents de code, exigeant qu’ils identifient et corrigent des bugs dans de véritables dépôts GitHub. Les résultats publics montrent que Claude Sonnet 4 obtient environ 80,20 % sur ce benchmark, tandis que Claude Opus 4.6 atteint entre 78 % et 80 %. Ces références ne mesurent pas la consommation de tokens, mais la capacité à “réaliser des unités de tâche”.

Pour l’évaluation de la valeur commerciale, Baidu propose le DAA (nombre d’agents actifs quotidiens), défini comme “le nombre d’agents qui travaillent réellement et livrent des résultats chaque jour”. L’objectif est de déplacer l’évaluation de “l’utilisation de l’IA” vers “la réalisation concrète de tâches”.

Amazon explore aussi un indicateur de “déploiement normalisé” pour remplacer la traçabilité par tokens, en se concentrant sur la capacité des ingénieurs à générer en continu du code utile via l’IA. Le rapport 2026 de la FinOps Foundation indique que 98 % des entreprises interrogées gèrent leurs coûts IA, contre 31 % deux ans plus tôt, la visibilité sur les coûts étant devenue une priorité. Cette tendance montre que l’évaluation fine des dépenses IA se déplace d’une simple question de “dépenses” à une analyse structurée “dépenses versus résultats”.

Ces explorations partagent une logique commune : mesurer la qualité et la quantité de tâches accomplies par l’agent, plutôt que la consommation de ressources — ce qui confirme la proposition que “l’actif véritable n’est pas le token, mais l’agent lui-même”.

IV. Comparaison entre la guerre des prix du token et la mesure par agent

4.1 La vision du “Token” vs celle de “l’agent”

Le positionnement en faveur du token remonte à la déclaration de Jensen Huang lors du GTC 2026 : “Si un ingénieur payé 500 000 dollars par an ne peut pas dépenser 250 000 dollars en tokens en un an, je serai très inquiet”, et il prône que le budget de tokens doit représenter l’indicateur de productivité. La logique est que la consommation de tokens reflète la productivité, sous-entendant une corrélation positive entre les deux.

Mais cette hypothèse est confrontée à plusieurs défis. Andrew Macdonald, COO d’Uber, a souligné : “Il est difficile de relier directement l’amélioration de la productivité individuelle à l’impact global sur l’entreprise.” En pratique, les employés utilisent souvent l’IA pour des tâches qu’ils n’aiment pas, plutôt que pour celles qui apportent le plus de valeur à l’entreprise. Sur le plan financier, une enquête montre que seulement 14 % des CFO peuvent mesurer clairement le retour sur investissement de l’IA. Après épuisement du budget annuel de tokens, Uber n’a pas constaté de croissance de performance correspondante. Ces éléments indiquent que : le budget de tokens n’a pas de lien vérifiable avec la croissance commerciale, et ne doit pas servir de critère d’évaluation.

4.2 La guerre des prix du token, un double tranchant

La compétition féroce sur le prix du token ajoute une nouvelle dimension à la controverse. En avril 2026, OpenAI a multiplié par plusieurs fois le prix de GPT-5.5 Pro API, passant de 30 à 180 dollars pour l’entrée, tandis que DeepSeek a réduit son V4-Pro à 0,025 yuan par million de tokens, tout comme Xiaomi pour ses MiMo-V2.5. La différenciation des prix est devenue extrême : le coût d’appel pour 1 million de tokens peut varier de moins de 0,03 yuan à environ 210 yuan (30 dollars).

Ce dynamisme remet en question la crédibilité du token comme unité de mesure. Si le coût pour produire un token est de plusieurs centaines ou milliers de fois différent selon le fournisseur, comment peut-on utiliser la consommation de tokens pour comparer l’efficacité des IA d’entreprises différentes ? Pour les investisseurs et analystes, cela complique la gestion des risques et la prévision des performances. La valorisation par token est en train de se fragmenter rapidement, et la mesure de “l’investissement” par la consommation devient de moins en moins pertinente.

V. La vérité plutôt que la rhétorique

Cas 1 : L’échec de “Claudeonomics” chez Meta

En avril 2026, un employé de Meta a créé un tableau de bord nommé “Claudeonomics” pour suivre la consommation de tokens de plus de 85 000 employés. Les chiffres montrent qu’en 30 jours, la consommation totale a atteint environ 60 000 milliards de tokens, correspondant à une facture d’environ 9 milliards de dollars selon le prix public d’Anthropic. Le top utilisateur a consommé environ 281 milliards de tokens en un mois, soit plus de 140 000 dollars.

Ce cas illustre trois phases de l’effet de la mesure par tokens : d’abord, l’incitation à utiliser l’IA via la consommation de tokens ; ensuite, la recherche de tâches artificielles pour augmenter la consommation ; enfin, la consommation excessive de ressources sans valeur ajoutée, conduisant Meta à arrêter le classement.

Cas 2 : La contrainte de capacité d’Anthropic et son expansion

Une autre facette de la mesure par tokens concerne le coût et la capacité des modèles. En mai 2026, pour répondre à la saturation des utilisateurs de Claude, Anthropic a annoncé qu’elle prendrait en charge l’intégralité de la capacité du centre de données Colossus 1 de SpaceX, avec plus de 300 MW supplémentaires et plus de 220 000 GPU Nvidia. Selon l’accord, cette capacité sera utilisée pour améliorer la qualité de service de Claude Pro et Max. Cette expansion montre la dépendance du système de tarification par tokens à la capacité de calcul, et soulève des questions sur sa stabilité à long terme.

Cas 3 : La pression sur les factures de tokens en entreprise

Des rapports indiquent que Microsoft a limité l’usage de Claude Code par ses employés, qu’Uber a épuisé son budget annuel en quatre mois, et que des entreprises comme Shopify, Spotify, ServiceNow ou Roku mentionnent dans leurs résultats que l’IA devient une source majeure de dépenses opérationnelles. Lorsque la facture de tokens commence à peser sur les résultats trimestriels, l’industrie commence à réévaluer la relation entre consommation et valeur commerciale.

Cas 4 : La réussite des agents comme actifs

Face aux limites du discours basé sur la consommation de tokens, certaines entreprises construisent des systèmes d’évaluation autour des agents eux-mêmes. La stratégie d’Anthropic, axée sur les services aux entreprises, a donné des résultats : ses utilisateurs actifs quotidiens (DAA) sont inférieurs à ceux de ChatGPT, mais ses revenus annuels ont continué de croître, atteignant plus de 30 milliards de dollars en mars 2026, contre 25 milliards pour OpenAI. La clé est que ces agents réalisent des tâches concrètes dans le back-office : gestion de contrats, analyse de données, ordonnancement de la chaîne d’approvisionnement, etc. La présence de l’agent est invisible, mais la valeur qu’il génère est tangible.

Selon The Information, le revenu annuel d’Claude Code a connu une croissance rapide entre 2025 et 2026, car les entreprises paient pour la qualité de la réalisation des tâches, pas seulement pour la consommation de ressources — ce qui confirme que “l’actif véritable, c’est l’agent”.

VI. La transition du token vers l’agent comme actif principal

En résumé, deux tendances principales se dégagent.

Premièrement, la consommation de tokens comme indicateur de performance présente des défauts structurels. Elle confond investissement et résultat, coûte et valeur, et ne possède pas de référence transmodèle ou trans-scénario. Elle sépare la gestion opérationnelle de la stratégie commerciale, créant des incitations déformées, comme l’ont montré Meta et Amazon.

Deuxièmement, l’agent intelligent devient le vecteur de valeur le plus concret dans l’économie de l’IA. La caractéristique clé d’un agent efficace est sa capacité à “réaliser des unités de tâche”, pas simplement à consommer du calcul. Un agent performant peut accomplir des tâches complexes avec peu de tokens, tandis qu’un agent inefficace peut en consommer beaucoup sans produire de résultats réels. La consommation de tokens ne reflète ni la capacité de l’agent ni le retour sur investissement.

Troisièmement, le secteur évolue d’une évaluation centrée sur le token vers une évaluation centrée sur l’agent. Des benchmarks comme SWE-bench permettent de comparer la capacité des agents à réaliser des tâches, tandis que des indicateurs comme DAA évaluent leur contribution économique. Les entreprises explorent aussi des métriques basées sur la qualité des résultats.

En conclusion, le véritable actif n’est pas le token, mais l’agent lui-même. Le token est le carburant de l’agent, mais la compétitivité des entreprises dépend de l’efficacité du moteur, pas de la taille du réservoir. La transition d’une évaluation centrée sur le token à une évaluation centrée sur l’agent sera l’une des principales lignes directrices de la reconstruction des systèmes d’évaluation de l’industrie de l’IA dans les trois à cinq prochaines années.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

Récompense
J'aime
Commentaire
Reposter
Partager

Commentaire

Ajouter un commentaire

Aucun commentaire

Sujets populaires
Afficher plus
#
ShareYourUSStocksWinNvidia
23.92M Popularité
#
WinGoldBarsWithGrowthPoints
1.28M Popularité
#
IsraelStrikesIranBTCPlunges
52.1K Popularité
#
NvidiaSurges6PercentToRecordHigh
2.87M Popularité
#
AnthropicFilesConfidentialIPO
480.82K Popularité

Épinglé

Les tokens ne sont pas de véritables actifs, ce sont les intelligences artificielles qui le sont

I. La consommation massive de tokens par les employés des entreprises technologiques