OpenRouter lance Fusion API : une approximation hybride de trois modèles Fable 5, coût réduit de moitié

OpenRouter le 13 juin a officiellement lancé l'API Fusion, permettant aux développeurs d'appeler plusieurs modèles en parallèle via une seule API, puis de faire fusionner la meilleure réponse par un modèle Judge. Lors du test de référence approfondi DRACO, Fusion a dépassé Claude Fable 5 avec 69% contre 65,3%, tandis qu’un panel composé de Gemini 3 Flash, Kimi K2.6 et DeepSeek V4 Pro, à moindre coût, n’était qu’à moins de 1% de différence, tout en coûtant seulement la moitié.

(Précédent contexte : Google a investi dans la plateforme d’IA OpenRouter, valorisée à 1,3 milliard de dollars, avec une croissance annuelle de 240%)

(Complément d’information : Analyse de 100 trillions de tokens par OpenRouter : à quoi l’humain utilise-t-il l’IA, montée en puissance des modèles chinois et secrets de fidélisation des utilisateurs)

Table des matières

Toggle

  • Évaluation approfondie DRACO : Fusion dépasse largement les modèles individuels
  • Même un panel à budget limité peut rivaliser : la fusion de trois modèles ne perd que moins de 1% face à Fable
  • Fusion n’est pas un remplacement de Fable, mais ses cas d’usage sont très clairs
  • Quatre modes d’appel à comprendre en une fois

La plateforme d’IA OpenRouter, très populaire, a lancé officiellement l’API Fusion le 13 juin. Cette nouvelle fonctionnalité permet aux développeurs d’envoyer simultanément une même question à plusieurs modèles, puis de faire fusionner leurs réponses par un modèle Judge, qui extrait la meilleure réponse, le tout en un seul appel API.

Le mécanisme central de Fusion est très intuitif : lorsqu’un utilisateur envoie un prompt, OpenRouter le distribue en parallèle à plusieurs modèles dans un « panel » (chaque modèle étant équipé d’outils de recherche web et de récupération web). Ensuite, le modèle Judge lit toutes les réponses du panel, produit une analyse structurée comprenant consensus, contradictions, recouvrements partiels, points de vue originaux et angles morts, puis rédige la réponse finale en se basant sur cette analyse. Tout le pipeline s’exécute côté serveur, offrant une expérience équivalente à un appel à un seul modèle.

Évaluation approfondie DRACO : Fusion dépasse largement les modèles individuels

L’équipe d’OpenRouter a évalué avec la référence DRACO de Perplexity AI, qui couvre 100 tâches de recherche complexes dans 10 domaines, avec des critères de notation incluant la véracité (environ 20 items), la portée et la profondeur (environ 9 items), la qualité de présentation (environ 6 items) et la qualité des citations (environ 5 items), avec un mécanisme de pénalisation pour les erreurs.

Voici les résultats pour chaque configuration :

  • Fusion (Fable 5 + GPT-5.5 → Opus 4.8 fusionné) : 69,0% 🥇
  • Fusion (Opus 4.8 + GPT-5.5 + Gemini 3.1 Pro → Opus 4.8 fusionné) : 68,3%
  • Fusion (Opus 4.8 + GPT-5.5 → Opus 4.8 fusionné) : 67,6%
  • Fusion (Opus 4.8 fusionné avec lui-même) : 65,5%
  • Claude Fable 5 seul : 65,3% (réalisant seulement 93/100 questions, en raison du filtrage de contenu)
  • Fusion (Gemini 3 Flash + Kimi K2.6 + DeepSeek V4 Pro → Opus 4.8 fusionné) : 64,7% 🔥
  • DeepSeek V4 Pro seul : 60,3%
  • GPT-5.5 seul : 60,0%
  • Claude Opus 4.8 seul : 58,8%

Même un panel à budget limité peut rivaliser : la fusion de trois modèles ne perd que moins de 1%

Le résultat le plus impressionnant vient d’un « panel » à budget limité : Gemini 3 Flash, Kimi K2.6 et DeepSeek V4 Pro, trois modèles relativement peu coûteux, fusionnés, atteignent 64,7%. Ils surpassent GPT-5.5 (60,0%) et Opus 4.8 (58,8%), et ne sont qu’à moins de 1 point de Claude Fable 5, tout en coûtant seulement la moitié de ce dernier. Cela signifie que les développeurs peuvent obtenir une capacité de recherche approfondie proche de celle des modèles de pointe à un coût de raisonnement inférieur.

Une autre découverte notable est que « fusionner soi-même » fonctionne aussi. En utilisant deux instances d’Opus 4.8 dans le panel (même modèle, deux copies) et en faisant fusionner avec Opus 4.8 en tant que Judge, on obtient un score de 65,5%, supérieur de 6,7 points à l’Opus 4.8 seul (58,8%). Cela montre qu’une grande partie de l’amélioration de Fusion provient de la valeur du processus de synthèse lui-même : même en faisant tourner le même modèle deux fois, avec des chemins de raisonnement et des outils différents, on peut obtenir un gain significatif.

Fusion n’est pas un remplacement de Fable, mais ses cas d’usage sont très clairs

Le CEO d’OpenRouter, Alex Atallah, a déclaré sur X que Fusion pouvait atteindre « le niveau d’intelligence de Fable, pour seulement la moitié du prix ». Cependant, l’équipe admet que la référence DRACO ne couvre pas les tâches à long horizon, où Claude Fable 5 excelle réellement. Pour des tâches complexes nécessitant plusieurs étapes de raisonnement et un contexte étendu, Fable reste pour l’instant irremplaçable.

Concernant le développement logiciel, Fusion n’est pas conçu pour remplacer directement les modèles de programmation. OpenRouter a conçu Fusion comme un outil serveur : lorsque le modèle de base rencontre un problème nécessitant une recherche approfondie (par exemple, décisions d’architecture, études de meilleures pratiques), il peut automatiquement décider d’appeler Fusion pour obtenir une analyse multi-angle, tandis que la rédaction de code quotidienne continue d’être gérée par le modèle principal.

Quatre modes d’appel à comprendre en une fois

Les développeurs peuvent utiliser Fusion de quatre manières :

  • Test en chatroom : directement sur openrouter.ai/fusion, en choisissant un preset ou en créant leur propre panel
  • Slug de modèle : dans l’API, spécifier « model » : « openrouter/fusion », ce qui charge automatiquement un panel de pointe par défaut
  • Outil serveur : ajouter dans le tableau tools : {« type » : « openrouter:fusion »}, permettant au modèle principal de décider quand appeler Fusion
  • Mode plugin : ajouter dans l’appel API le paramètre plugins, pour personnaliser la composition des modèles du panel

Le panel par défaut de Fusion coûte environ 50% moins cher que Fable, mais le temps de réponse est environ 2 à 3 fois plus long (car il faut attendre la parallélisation et la fusion de plusieurs modèles). OpenRouter indique qu’il continuera à améliorer la performance en fonction des retours des utilisateurs.

Cet article provient du Blog OpenRouter, traduit et compilé par Dongqu Dongqu.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé