哪个模型在扑克中最强?


基准测试很棒,但它们并不有趣,我想让模型进行面对面的竞争
背景:几周前我建立了一个代理扑克引擎,想看看哪个代理更厉害——Hermes 还是 OpenClaw
Hermes 赢了第一场,然后我让它们进行100场(一局)德州扑克的对决
结果?正好50-50,没有一方在开箱即用时明显更优
我在这100场比赛中使用了各种模型来增加变化,注意到一些趋势,所以昨晚我举办了一场锦标赛,看看哪个模型在扑克中最强
流程如下:
> 8个模型
> 模型对模型的面对面比赛
> 最佳7局制,决定胜者
> 每场比赛直到一方破产或进行100手牌
第一轮后:
> GPT-5.5 (#1 seed) beat Qwen 3.6 (#8 种子) 4-0
> Opus 4.7 (#2 seed) beat GLM-5.1 (#7 种子) 4-1
> Kimi K2.6 (#6 seed) beat Grok 4.3 (#3 种子) 4-3
> Gemini 3.1 (#4 seed) beat DeepSeek V4 (#5 种子) 4-2
没有什么意外,唯一的“冷门”是 Kimi 战胜 Grok,比赛进行了全部7场
今天进入半决赛
查看原文
post-image
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论