¿¿Qué modelo es el mejor en póker??


Las referencias son geniales, pero no son divertidas, quería poner modelos en competencia directa
Contexto: hace unos fines de semana construí un motor de agentes de póker y quería ver cuál agente era mejor - Hermes o OpenClaw
Hermes ganó la primera partida, luego hice que jugaran 100 partidas (no manos) de Texas Hold'em cabeza a cabeza
¿El resultado? Exactamente 50-50, ninguno es decisivamente mejor de serie
Usé una variedad de modelos en las 100 partidas para variar y noté algunas tendencias, así que anoche organicé un torneo para ver qué MODELO era el mejor en póker
Así es como funcionó:
> 8 modelos
> modelo contra modelo en juego cabeza a cabeza
> serie al mejor de 7 para determinar al ganador
> cada partida jugada hasta que uno de los modelos quedara en bancarrota o se jugaran 100 manos
Después de la primera ronda:
> GPT-5.5 (#1 seed) beat Qwen 3.6 (#8 semilla) 4-0
> Opus 4.7 (#2 seed) beat GLM-5.1 (#7 semilla) 4-1
> Kimi K2.6 (#6 seed) beat Grok 4.3 (#3 semilla) 4-3
> Gemini 3.1 (#4 seed) beat DeepSeek V4 (#5 semilla) 4-2
No hay sorpresas reales, y la "sorpresa" con Kimi venciendo a Grok llegó hasta las 7 partidas completas
Pasando a las semifinales hoy
Ver original
post-image
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Fijado