Quel modèle est le meilleur au poker ?


Les benchmarks sont excellents, mais ce n’est pas amusant, je voulais mettre des modèles en compétition directe
Contexte : il y a quelques week-ends, j’ai construit un moteur d’agents poker et je voulais voir quel agent était meilleur - Hermes ou OpenClaw
Hermes a gagné le premier match, puis je les ai fait jouer 100 parties (pas de mains) de Texas Hold'em en tête-à-tête
Le résultat ? Exactement 50-50, aucun n’est nettement meilleur dès la sortie de la boîte
J’ai utilisé une variété de modèles lors des 100 matchs pour varier, et j’ai remarqué quelques tendances, alors hier soir j’ai organisé un tournoi pour voir quel MODÈLE était le meilleur au poker
Voici comment cela a fonctionné :
> 8 modèles
> modèle contre modèle en tête-à-tête
> série au meilleur de 7 pour déterminer le gagnant
> chaque match joué jusqu’à ce qu’un des deux modèles fasse faillite ou que 100 mains soient jouées
Après la première ronde :
> GPT-5.5 (#1 seed) beat Qwen 3.6 (#8 graine) 4-0
> Opus 4.7 (#2 seed) beat GLM-5.1 (#7 graine) 4-1
> Kimi K2.6 (#6 seed) beat Grok 4.3 (#3 graine) 4-3
> Gemini 3.1 (#4 seed) beat DeepSeek V4 (#5 graine) 4-2
Pas de surprises majeures, et la seule « surprise » avec Kimi battant Grok a duré les 7 matchs complets
On passe aux demi-finales aujourd’hui
Voir l'original
post-image
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épinglé