Какая модель лучше всего в покере?


Бенчмарки хороши, но они не очень интересны, я хотел устроить состязание моделей лицом к лицу.
Фон: пару выходных назад я создал движок агента для покера и хотел понять, какая модель лучше — Hermes или OpenClaw.
Hermes выиграл первый матч, затем я заставил их сыграть 100 матчей (не рук) в heads-up Техасский Холдем.
Результат? Точно 50-50, ни одна из них не является решительно лучше прямо из коробки.
Я использовал разные модели в этих 100 матчах, чтобы разнообразить игру, и заметил некоторые тенденции, поэтому прошлой ночью я провёл турнир, чтобы определить, какая МОДЕЛЬ лучше в покере.
Вот как это работало:
> 8 моделей
> модель против модели в игре лицом к лицу
> серия из лучших из 7 для определения победителя
> каждый матч продолжался, пока одна модель не обанкротилась или не сыграли 100 рук
После первого раунда:
> GPT-5.5 (#1 seed) beat Qwen 3.6 (#8 seed) 4-0
> Opus 4.7 (#2 seed) beat GLM-5.1 (#7 seed) 4-1
> Kimi K2.6 (#6 seed) beat Grok 4.3 (#3 seed) 4-3
> Gemini 3.1 (#4 seed) beat DeepSeek V4 (#5 seed) 4-2
Никаких особых сюрпризов, и единственный "сюрприз" — победа Kimi над Grok, которая длилась все 7 матчей.
Переходим к полуфиналам сегодня.
Посмотреть Оригинал
post-image
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено