Gartner : d'ici 2030, le coût de l'inférence sur les grands modèles de langage diminuera de plus de 90 %

MaticHoleFiller · 2026-04-01T01:48:47+00:00

Selon Gartner, d'ici 2030, le coût de l'inférence sur un grand modèle de langage (LLM) doté de trillions de paramètres sera réduit de plus de 90 % par rapport à 2025, ce qui permettra aux fournisseurs d'intelligence artificielle générative (GenAI) d'économiser énormément de coûts.Les jetons d'IA sont l'unité de données traitée par les modèles d'intelligence artificielle générative. Dans cette analyse, un jeton correspond à environ 3,5 octets de données, soit environ 4 caractères.Will Sommer, analyste principal chez Gartner, a déclaré : « La baisse de ces coûts sera rendue possible par l'amélioration de l'efficacité des semi-conducteurs et des infrastructures, l'innovation dans la conception des modèles, l'augmentation de l'utilisation des puces d'inférence dédiées à des usages spécifiques, ainsi que l'application des appareils en périphérie dans des scénarios spécifiques. »En raison de ces tendances, Gartner prévoit qu'à l'horizon 2030, les grandes

MaticHoleFiller

2026-04-01 01:48:47

Selon Gartner, d’ici 2030, le coût d’inférence sur un grand modèle de langage (LLM) comptant des milliers de milliards de paramètres baissera de plus de 90 % par rapport à 2025, ce qui permettra aux fournisseurs d’IA générative (GenAI) de réaliser d’importantes économies.

Un jeton d’IA est l’unité de données traitée par les modèles d’IA générative. Dans cette analyse, un jeton équivaut à 3,5 octets de données, soit environ 4 caractères.

Will Sommer, analyste senior chez Gartner, a déclaré : « Cette baisse des coûts sera due à de nombreux facteurs, notamment l’amélioration de l’efficacité des semi-conducteurs et de l’infrastructure, des innovations dans la conception des modèles, l’augmentation de l’utilisation des puces, un recours plus fréquent à des puces d’inférence spécialisées pour des usages spécifiques, ainsi que l’application de l’IA de pointe sur des dispositifs de périphérie dans des contextes particuliers. »

Sous l’effet de ces tendances, Gartner prévoit qu’en 2030, la rentabilité des grands modèles de langage sera jusqu’à 100 fois supérieure à celle des modèles initiaux de taille comparable développés en 2022.

Les résultats du modèle de prévision sont répartis en deux scénarios de semi-conducteurs :

Scénario d’avant-garde : le modèle traite des données simulées basées sur des puces de pointe.

Scénario hybride traditionnel : le modèle traite des données simulées basées sur une combinaison typique de semi-conducteurs existants, cette combinaison étant évaluée en s’appuyant sur les données de prévision de la société de conseil Gartner.

Dans le scénario de « hybride » de prévision, les coûts calculés sont nettement plus élevés que dans le scénario « d’avant-garde ».

Scénarios de prévision des coûts d’inférence pour l’intelligence artificielle générale

La baisse des coûts ne rendra pas les technologies d’avant-garde accessibles à tous

Cependant, la baisse du prix des jetons des fournisseurs de services d’IA générative ne sera pas entièrement répercutée sur les clients entreprises. En outre, le nombre de jetons requis pour les applications d’intelligence d’avant-garde sera bien supérieur à celui des applications grand public actuelles. Par exemple, le nombre de jetons nécessaires pour que des modèles d’agents accomplissent chaque tâche est de 5 à 30 fois celui des chatbots d’IA générative standard, et ils peuvent exécuter plus de tâches que celles que les humains accomplissent en utilisant l’IA générative.

Bien que le coût unitaire plus faible des jetons permettra aux systèmes d’IA générative plus avancés de disposer de capacités plus fortes, ces progrès entraîneront une augmentation considérable de la demande en jetons. Comme la vitesse de consommation des jetons est supérieure à celle de la baisse de leur coût, le coût total de l’inférence devrait augmenter.

Sommer a déclaré : « Les directeurs produit ne devraient pas confondre la dépréciation des jetons standardisés avec la démocratisation de l’inférence d’avant-garde. À mesure que le coût des technologies d’intelligence standardisée se rapproche de zéro, les ressources de calcul et les systèmes nécessaires pour prendre en charge une inférence de niveau supérieur demeurent très rares. Les directeurs produit qui, aujourd’hui, masquent les problèmes d’inefficacité architecturale avec des jetons bon marché auront demain du mal à étendre l’autonomie à grande échelle. »

Les plateformes capables d’orchestrer et de traiter des charges de travail provenant de divers modèles généreront de la valeur. Les tâches courantes, fréquentes, doivent être confiées à des modèles de langage plus petits et plus efficients, spécialisés dans des domaines particuliers, car ces modèles peuvent réaliser des flux de travail spécifiques avec de meilleures performances pour un coût qui ne représente qu’une fraction de celui des solutions généralistes. L’inférence à coût élevé des modèles de niveau avant-garde doit être strictement limitée, et réservée à des tâches à forte rentabilité et à raisonnement complexe.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

2 J'aime