Je vois la nouvelle hiérarchie des modèles d'IA menée par Gemini 3 Flash. Selon le benchmark PinchBench, Gemini 3 Flash a dominé dans les tâches OpenClaw avec un taux de réussite de 95,1 %.



En deuxième et troisième position, se trouvent minimax-m2.1 (93,6%) et kimi-k2.5 (93,4%). Claude Sonnet 4.5 est à 92,7 %, tandis que GPT-4o est à 85,2 %. La différence est visible entre ces modèles.

Le CISO de Magma, 23pads, a partagé ces données. La performance de ces modèles d'IA varie considérablement dans les tâches d'agents. La domination de Gemini est encore claire pour l'instant.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler