OpenRouter : l'écart en IA entre la Chine et les États-Unis n'est que de 3 à 6 mois, les modèles open source envahissent le monde.

OpenRouter désigne plusieurs représentants : DeepSeek V4 Flash, qui s'impose dans les flux agentiques réels à un prix ultra-compétitif ; GLM 5.2, qui prend la tête de la qualité selon le classement Artificial Analysis ; et le Nemotron 3 Ultra de NVIDIA, représentant une équipe américaine totalement ouverte.
(Contexte précédent : La fin de l'ère des prix élevés de l'IA approche ? Cinq raisons structurelles pour lesquelles les tokens vont inévitablement baisser)
(Contexte complémentaire : Anthropic bloque totalement la Chine ! Les entreprises chinoises, à l'intérieur comme à l'extérieur du pays, sont interdites d'utiliser Claude, renforçant les lignes de défense nationales)

Table des matières

Toggle

  • DeepSeek fait chuter les prix au plancher
  • GLM prend le trône de la qualité
  • Équipe américaine : NVIDIA Nemotron 3 Ultra

Il y a deux ans, le trône des poids ouverts appartenait encore au Llama de Meta. Aujourd'hui, les données d'OpenRouter, le plus grand routeur de LLM neutre au monde, montrent que Llama a complètement disparu du classement. En mai 2026, les modèles à poids ouverts chinois consomment environ 61 % des tokens sur cette plateforme, et DeepSeek à lui seul en a représenté 17,6 % en une semaine.

Derrière ce renversement se cache un fait sous-estimé : l'intelligence et les capacités des modèles à poids ouverts restent systématiquement trois à six mois derrière les laboratoires de pointe américains, et cet écart ne se creuse pas. Pour toute organisation qui examine ses factures cloud, transférer des charges de travail des modèles de pointe vers les poids ouverts permet des économies réelles.

DeepSeek fait chuter les prix au plancher

DeepSeek V4 Flash est le premier modèle à poids ouverts que les équipes ont directement intégré dans des flux agentiques réels, utilisé comme alternative aux modèles de pointe de niveau Anthropic ou OpenAI. La version plus grande V4 Pro a obtenu 80,06 % sur SWE-bench Verified, le score le plus élevé parmi les poids ouverts (SWE-bench Verified signifie, en termes simples, un jeu de données de tâches de réparation de code réel issues de GitHub pour tester les capacités de programmation des modèles).

DeepSeek V4-Pro

  • Coût d'entrée sans cache : 0,30 $ US par million de tokens
  • Coût d'entrée avec cache : 0,03 $ US par million de tokens
  • Coût de sortie : 0,50 $ US par million de tokens

DeepSeek R1 (Expert en raisonnement profond et réflexion)

  • Coût d'entrée sans cache : 0,55 $ US par million de tokens
  • Coût d'entrée avec cache : 0,14 $ US par million de tokens
  • Coût de sortie : 2,19 $ US par million de tokens

DeepSeek V4-Flash (Vitesse extrême et faible coût privilégiés)

  • Coût d'entrée sans cache : 0,14 $ US par million de tokens
  • Coût d'entrée avec cache : 0,0028 $ US par million de tokens
  • Coût de sortie : 0,28 $ US par million de tokens

Le cache hit signifie que lorsque les mêmes invites ou historiques de dialogue sont répétés, le coût d'entrée est considérablement réduit de 70 à 90 %.

GLM prend le trône de la qualité

Le modèle ouvert GLM 5.2, publié par z-ai à la mi-juin, a été classé premier parmi les poids ouverts par l'Intelligence Index v4.1 de l'organisme d'évaluation tiers Artificial Analysis, avec 51 points, devançant le Nemotron 3 Ultra avec 48 points, MiniMax M3 et DeepSeek V4 Pro avec 44 points, et seulement environ 5 points de moins que le Claude Fable 5 fermé. Sur l'évaluation agentique plus réaliste GDPval-AA, il est à peu près au même niveau que GPT-5.5.

Son point fort est la planification. Conception d'architecture, refactorisation à l'échelle d'un dépôt entier, tâches agentiques longue durée : GLM 5.2 est actuellement l'alternative portable la plus proche du style Opus. Le prix à payer est qu'il aime beaucoup réfléchir : le prix réel moyen pondéré d'OpenRouter est de 0,447 $ US par million de tokens en entrée et 3,31 $ US en sortie.

Ce qui est encore plus significatif, c'est le timing. Quelques jours avant l'arrivée de GLM 5.2, une directive américaine de contrôle des exportations a forcé Anthropic à désactiver massivement Fable 5 et Mythos 5 pour empêcher l'accès par des ressortissants étrangers. D'un côté, les modèles fermés sont coupés du jour au lendemain pour des raisons géopolitiques ; de l'autre, des poids ouverts sous licence MIT, proches de la frontière, que n'importe qui peut héberger lui-même.

Équipe américaine : NVIDIA Nemotron 3 Ultra

Les poids ouverts ne viennent pas seulement de Chine. NVIDIA a récemment publié le Nemotron 3 Ultra, qui a obtenu 48 points sur le même classement, ce qui en fait le meilleur poids ouvert américain, juste derrière GLM 5.2.

550 milliards de paramètres, 55 milliards d'actifs, architecture hybride Mamba-2 et Transformer, sous licence OpenMDW ; OpenMDW signifie, en termes simples, non seulement les poids sont ouverts, mais aussi les données d'entraînement, les recettes et les outils d'évaluation. Le calcul de NVIDIA est très simple : plus les modèles ouverts sont utilisés, plus les puces Blackwell, CUDA et les services d'entreprise qui exécutent ces modèles se vendent.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire