Qual modelo é o melhor no poker?


Os benchmarks são ótimos, mas não são divertidos, eu queria colocar modelos em competição direta
Contexto: há algumas semanas, criei um motor de agentes de poker e queria ver qual agente era melhor - Hermes ou OpenClaw
Hermes ganhou a primeira partida, depois fizem jogar 100 partidas (não mãos) de heads-up Texas Hold'em
O resultado? Exatamente 50-50, nenhum é decisivamente melhor de fábrica
Usei uma variedade de modelos ao longo das 100 partidas para variar e notei algumas tendências, então na noite passada organizei um torneio para ver qual MODELO era melhor no poker
Assim funcionou:
> 8 modelos
> modelo vs modelo em jogo heads-up
> série melhor de 7 para determinar o vencedor
> cada partida jogada até que um modelo estivesse falido ou até 100 mãos fossem jogadas
Após a primeira rodada:
> GPT-5.5 (#1 seed) beat Qwen 3.6 (#8 semente) 4-0
> Opus 4.7 (#2 seed) beat GLM-5.1 (#7 semente) 4-1
> Kimi K2.6 (#6 seed) beat Grok 4.3 (#3 semente) 4-3
> Gemini 3.1 (#4 seed) beat DeepSeek V4 (#5 semente) 4-2
Sem grandes surpresas, e a única "surpresa" com Kimi vencendo Grok foi até as 7 partidas completas
Indo para as semifinais hoje
Ver original
post-image
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
Adicionar um comentário
Adicionar um comentário
Nenhum comentário
  • Fixado