Яка модель найкраща в покері?


Бенчмарки чудові, але вони не дуже цікаві, я хотів поставити моделі у головну конкуренцію
Фон: кілька вихідних тому я створив агентський двигун для покеру і хотів побачити, яка модель краща — Hermes чи OpenClaw
Hermes виграв перший матч, потім я змусив їх зіграти 100 матчів (не рук) у Техаський Холдем у форматі "голова до голови"
Результат? Точно 50-50, жодна з них не є однозначно кращою з коробки
Я використовував різні моделі протягом 100 матчів, щоб урізноманітнити гру, і помітив деякі тенденції, тому минулої ночі я провів турнір, щоб визначити, яка МОДЕЛЬ найкраща в покері
Ось як це працювало:
> 8 моделей
> модель проти моделі у грі "голова до голови"
> серія з найкращих із 7 для визначення переможця
> кожен матч тривав, поки одна модель не стала банкрутом або не зіграли 100 рук
Після першого раунду:
> GPT-5.5 (#1 seed) beat Qwen 3.6 (#8 seed) 4-0
> Opus 4.7 (#2 seed) beat GLM-5.1 (#7 seed) 4-1
> Kimi K2.6 (#6 seed) beat Grok 4.3 (#3 seed) 4-3
> Gemini 3.1 (#4 seed) beat DeepSeek V4 (#5 seed) 4-2
Немає особливих несподіванок, і єдине "збіг" з Kimi, що перемогла Grok, тривало всі 7 матчів
Сьогодні переходимо до півфіналів
Переглянути оригінал
post-image
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено