Compte à rebours de la fin de l'ère des prix élevés de l'IA ? Cinq raisons structurelles pour lesquelles les tokens vont baisser de prix.

Question

Amélioration des performances à rendement décroissant, coût des modèles open source seulement un dixième, puces dédiées réduisant les coûts d'inférence, coût de changement nul permettant aux utilisateurs de basculer instantanément, modèles locaux capables de mettre fin aux abonnements d'ici 4 à 5 ans. La marge des grandes entreprises d'IA pour maintenir des prix élevés se rétrécit-elle rapidement ?
(Contexte : Le modèle phare d'OpenAI, GPT-5.6 Sol, débarque exclusivement sur Cerebras ; "Serenity le Dieu des actions blanches" crie "technologie validée" pour acheter à la baisse)
(Complément : Citrini Research : Évitez la bulle de l'IA ! Désignez "5 zones aveugles de profit excessif" pour accueillir la rotation des capitaux)

Table des matières

Basculer

Le double assaut du plafond de performance et de l'open source
Révolution des puces et coût de changement nul
Modèles locaux : la menace finale pour les abonnements

L'ingénieur logiciel Aditya Patadia souligne dans son blog personnel : Uber a brûlé en 4 mois son budget IA annuel, Microsoft, Salesforce et GitHub ont également annoncé successivement vouloir contrôler les dépenses IA de leurs employés. C'est un problème commun à toute l'industrie, pas un problème de discipline financière d'une entreprise particulière. Mais il prédit que la structure tarifaire coûteuse des entreprises d'IA de pointe va bientôt s'inverser.

Le double assaut du plafond de performance et de l'open source

Première observation de Patadia : l'amélioration des performances des modèles subit des rendements décroissants. Chaque itération de modèle progresse encore, mais l'ampleur des progrès diminue, et le problème des données d'entraînement est structurel : les grands laboratoires d'IA ont probablement déjà digéré presque toutes les connaissances écrites numérisées de l'histoire humaine, rendant l'amélioration des ensembles d'entraînement extrêmement difficile.

Il cite comme preuve que Claude Opus 4.8 et Claude Opus 4.7 ont le même prix : lorsque le modèle ne peut plus montrer de sauts significatifs entre générations, la raison d'augmenter les prix disparaît, et la concurrence se résume à une seule voie : la baisse des prix.

La deuxième pression vient du camp open source. Il prend l'exemple de GLM-5.2, un modèle open source qui égale déjà GPT 5.5 et Claude Opus sur les benchmarks de code, mais dont le prix n'est qu'un dixième de celui de GPT 5.5, créant un avantage écrasant en termes de prix.

Le jugement de Patadia est : tant que les modèles open source continuent de réduire l'écart de performance avec les modèles propriétaires de pointe, la marge de prix des modèles propriétaires continuera de se comprimer.

Révolution des puces et coût de changement nul

Une autre ligne de pression sur les prix de l'IA vient du matériel. Patadia souligne que les puces dédiées à l'IA développées par des entreprises comme Cerebras, Groq et Google réécrivent la limite inférieure des coûts d'inférence. Par exemple, les TPU de Google ont un coût d'inférence 30 à 70 % moins cher que les GPU Nvidia H100.

En termes simples, pour une même quantité de calcul, l'utilisation de la bonne puce permet d'économiser beaucoup d'argent, et cet écart comprime directement la limite inférieure des prix des services de modèles. Outre les puces, l'architecture des modèles elle-même réduit les coûts : les mécanismes de cache évitent de recalculer les requêtes répétées, et l'architecture MoE (Mixture of Experts), en termes simples, permet au modèle d'appeler certains "experts" à la demande, sans mobiliser tous les neurones à chaque fois, réduisant ainsi considérablement les dépenses de calcul tout en maintenant une précision équivalente.

Un autre point que Patadia considère comme le facteur structurel le plus sous-estimé : le coût de changement nul.

Sa comparaison est directe : les fossés défensifs des logiciels traditionnels comme Windows, Adobe et Salesforce résident dans le fait que les remplacer coûte très cher, nécessitant souvent des mois de migration. Les modèles d'IA n'ont pas ce fossé. Les passerelles IA comme OpenRouter.ai permettent aux développeurs de changer de fournisseur de modèles en quelques secondes, et même de faire basculer automatiquement le système entre différents fournisseurs par programmation.

Lorsque les concurrents peuvent être remplacés instantanément à tout moment, toute tentative d'augmentation de prix par un fabricant enverra directement les utilisateurs ailleurs.

Modèles locaux : la menace finale pour les abonnements

La prédiction la plus audacieuse de Patadia concerne les modèles locaux. Son estimation est de 4 à 5 ans : l'amélioration continue des performances des puces et la baisse inévitable des prix de la mémoire (RAM) permettront aux ordinateurs et smartphones grand public d'exécuter des modèles de langage localement. Il prédit en outre que les systèmes d'exploitation grand public intégreront des interfaces de déploiement de modèles, permettant aux applications locales d'appeler directement les modèles locaux.

Si ce scénario se réalise, que signifie-t-il ? Les modèles cloud ne seront nécessaires que pour les tâches les plus complexes : analyse de documents juridiques, raisonnement à long contexte, intégration multi-bases de données. Des tâches quotidiennes comme la complétion automatique de code, la vérification de fichiers, la vérification de faits de base seront effectuées localement, sans nécessiter d'abonnement cloud de 20 $ ou même 200 $ par mois.

Bien sûr, Patadia lui-même note qu'il s'agit d'une "prédiction" et non d'un fait certain. Il déclare que ce sont ses "pari audacieux", et le temps donnera la réponse. Mais les cinq directions de pression ci-dessus - rendements décroissants de la performance, montée des alternatives open source, réduction des coûts par les puces dédiées, coût de changement nul, remplacement par des modèles locaux - sont chacune soutenues par des cas réels, et ne sont pas de pures expériences de pensée.

Si la prédiction de Patadia est correcte, c'est une bonne nouvelle pour les utilisateurs ; mais pour les entreprises d'IA qui encaissent de l'argent, c'est une autre histoire.

Voir l'original

Compte à rebours de la fin de l'ère des prix élevés de l'IA ? Cinq raisons structurelles pour lesquelles les tokens vont baisser de prix.

Le double assaut du plafond de performance et de l'open source

Révolution des puces et coût de changement nul

Modèles locaux : la menace finale pour les abonnements

Sujets populaires

SKHynixTopsKOSPIByMarketCap

MicronEarningsBeatExpectationsSharesRise

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

USMayPCEInflationRisesTo4.1%HighestIn3Years

Épinglé