Lorsque les factures d'IA deviennent incontrôlables, le routeur de modèles devient le nouveau favori des entreprises pour réduire les coûts.

robot
Création du résumé en cours

À mesure que le coût d’utilisation de l’IA par les entreprises continue d’augmenter, une technologie appelée « routeur de modèles » passe rapidement d’un outil marginal à un outil courant. Ces systèmes peuvent automatiquement attribuer le modèle d’IA le plus approprié en fonction de la complexité de la tâche, réduisant considérablement les dépenses sans sacrifier de manière significative la qualité, attirant ainsi l’attention d’un large éventail d’acteurs, des start-ups aux grandes entreprises.

La logique centrale du routeur de modèles est la suivante : toutes les tâches ne nécessitent pas le modèle de pointe le plus coûteux. Les tâches de base telles que la synthèse d’e-mails ou la recherche de documents peuvent être traitées par des modèles open source ou des modèles propriétaires plus anciens, pour un coût ne représentant qu’une fraction de celui des modèles haut de gamme. Des entreprises comme Snowflake et Palo Alto Networks ont confirmé à The Information qu’elles réalisent des économies significatives en remplaçant certains modèles par des alternatives moins chères pour des tâches spécifiques.

Cette tendance génère déjà des retombées commerciales réelles. McCarthy Building, une entreprise de construction, a déclaré que grâce à Evolve, l’outil de routage de Palantir, son utilisation trimestrielle de tokens IA a diminué de 60 % par rapport à la même période l’année dernière. Palantir a également révélé que, dans un cas spécifique, cet outil a réduit les coûts de calcul de 97 % en passant d’une tâche effectuée par le GPT-5.1 d’OpenAI au modèle plus petit GPT-5.4 Nano.

De la sélection manuelle au routage automatique : un tournant pour l’industrie

Le concept de routeur de modèles n’est pas entièrement nouveau, mais il est véritablement entré dans le grand public après qu’OpenAI a lancé GPT-5. Ce modèle bascule automatiquement entre différents modèles dans ChatGPT en fonction de la complexité des invites des utilisateurs, intégrant ainsi la logique de routage directement dans le produit. Depuis, les routeurs capables d’orchestrer des modèles de plusieurs fournisseurs se sont rapidement répandus.

Actuellement, les routeurs sur le marché se présentent sous diverses formes : certains sont des produits indépendants, d’autres sont des modules fonctionnels intégrés aux services cloud, et d’autres encore sont des solutions personnalisées développées en interne par les départements informatiques des entreprises. L’objectif commun de ces outils est de remplacer la sélection manuelle de modèles par l’utilisateur, réduisant ainsi les coûts tout en maintenant la qualité des résultats.

Unity AI Gateway, lancé par Databricks, en est un exemple. Ali Ghodsi, PDG de l’entreprise, a déclaré que cet outil est « très populaire » car de nombreuses entreprises « épuisent leur budget trop rapidement ». Databricks a utilisé cet outil en interne avant de le proposer à ses clients.

Des start-ups aux géants de la tech, tout le monde s’engage

Le secteur des routeurs attire des acteurs de toutes tailles. Selon des informations précédentes de The Information, en avril dernier, la start-up OpenRouter, spécialisée dans les technologies de routage, a bouclé une nouvelle levée de fonds de 120 millions de dollars, témoignant de l’enthousiasme du marché pour cette direction.

Le « routeur automatique » d’OpenRouter décide quel modèle invoquer en fonction des préférences de l’utilisateur en matière de coût et de qualité (définies sur une échelle de 0 à 10). Les données montrent que ce routeur choisit environ un tiers du temps le modèle Gemini 2.5 Flash Lite, relativement bon marché de Google, tandis que le recours au GPT-5.5 plus puissant d’OpenAI ne représente qu’environ 10 % des appels. Le routeur automatique d’OpenRouter est alimenté en sous-main par la start-up Not Diamond, spécialisée dans le développement de systèmes de routage pour les agents IA programmateurs.

Le laboratoire d’IA japonais Sakana AI a récemment dévoilé un système multi-modèle collaboratif basé sur un routeur. Lors des tests, ce système a principalement attribué les problèmes mathématiques au GPT-5.5 d’OpenAI et les problèmes scientifiques à Gemini de Google, car le système a jugé que ces deux modèles étaient supérieurs aux autres dans leurs domaines respectifs. Sakana AI affirme que les performances globales de ce système « sont comparables » à celles des modèles Fable 5 et Mythos Preview d’Anthropic dans des benchmarks couvrant la programmation, l’ingénierie, les tâches scientifiques et le raisonnement.

Cognition, une application de programmation IA, a également lancé cette semaine un nouveau routeur, qui utilise ses propres benchmarks internes pour identifier les avantages relatifs de différents agents et introduit un agent « sidekick » pour traiter les tâches plus simples. Cognition indique que ce routeur atteint le niveau de score de Fable 5 sur un certain benchmark de programmation, tout en étant 35 % moins cher.

Le routage DIY, des solutions à bas coût tout aussi efficaces

Toutes les entreprises n’ont pas besoin d’acheter des produits de routage professionnels. Les développeurs peuvent utiliser des agents IA de programmation comme Claude Code pour construire leur propre routeur, ou même demander directement à un modèle IA de décider quel modèle est le mieux adapté à une requête donnée.

Hunter Bown, responsable des agents IA chez Arcee AI, a déclaré qu’il a l’habitude d’utiliser DeepSeek V4 Flash pour la sélection de modèles, en raison de son faible coût. Sa méthode consiste à fournir à DeepSeek une liste de modèles et à lui demander de déterminer lequel est le plus adapté à l’invite en cours.

Cependant, ces solutions « rapides » ont aussi leurs limites. Shriyash Upadhyay, fondateur du fournisseur de routeurs Martian, souligne que les routeurs plus complexes affichent parfois des résultats brillants sur les benchmarks, mais que leurs performances réelles ne sont pas toujours à la hauteur. Il ajoute que même les routeurs plus sophistiqués ont du mal à prédire le meilleur modèle à partir de la première invite de l’utilisateur.

Upadhyay indique que la rapidité d’itération des modèles et les changements continus de capacités rendent les décisions de routage de plus en plus complexes. « Les entreprises ne disposent pas de données infinies sur toutes les tâches, il faut donc vraiment plonger à l’intérieur des modèles pour comprendre ce dans quoi ils excellent. » Pour cette raison, Martian prend en compte non seulement les résultats des modèles, mais aussi les processus de calcul internes qui les composent, lors de ses décisions de routage.

Pression continue sur les coûts, la demande de routeurs devrait augmenter

L’anxiété des entreprises face aux coûts de l’IA n’est pas un phénomène à court terme. Alors que l’utilisation des modèles d’IA avancés par les employés (phénomène appelé « tokenmaxxing ») continue d’augmenter, la direction examine de plus près les dépenses liées à l’IA. Ce contexte fournit une force motrice persistante pour la demande de routeurs de modèles.

En plus de sa fonction de routage, l’outil Evolve de Palantir peut ajuster automatiquement le contenu des invites en fonction du modèle sélectionné et empêcher les requêtes d’être envoyées en double au modèle – une cause fréquente de surfacturation. L’exemple de McCarthy Building montre qu’en optimisant la structure des invites, les entreprises peuvent consommer moins de tokens tout en utilisant des modèles de pointe et obtenir les mêmes résultats.

Pour les investisseurs, l’intensification du secteur des routeurs de modèles signifie que, d’une part, les start-ups comme OpenRouter, spécialisées dans les technologies de routage, attirent des capitaux ; d’autre part, les entreprises comme Databricks et Palantir, qui intègrent des fonctions de routage dans leurs plates-formes d’IA pour entreprises, renforcent ainsi la compétitivité de leurs produits. Alors que les dépenses d’infrastructure IA continuent de croître, la couche d’outils qui aide les entreprises à contrôler ces dépenses devient un marché émergent incontournable.

Avertissement sur les risques et clause de non-responsabilité

Le marché comporte des risques, les investissements doivent être prudents. Cet article ne constitue pas un conseil d’investissement personnel et ne tient pas compte des objectifs d’investissement, de la situation financière ou des besoins spécifiques de chaque utilisateur. Les utilisateurs doivent considérer si les opinions, points de vue ou conclusions présentés dans cet article correspondent à leur situation particulière. Investir en conséquence relève de la seule responsabilité de l’utilisateur.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé