10,000 USDT 悬赏,寻找Gate广场跟单金牌星探!🕵️♀️
挖掘顶级带单员,赢取高额跟单体验金!
立即参与:https://www.gate.com/campaigns/4624
🎁 三大活动,奖金叠满:
1️⃣ 慧眼识英:发帖推荐带单员,分享跟单体验,抽 100 位送 30 USDT!
2️⃣ 强力应援:晒出你的跟单截图,为大神打 Call,抽 120 位送 50 USDT!
3️⃣ 社交达人:同步至 X/Twitter,凭流量赢取 100 USDT!
📍 标签: #跟单金牌星探 #GateCopyTrading
⏰ 限时: 4/22 16:00 - 5/10 16:00 (UTC+8)
详情:https://www.gate.com/announcements/article/50848
哪个模型在扑克中最强?
基准测试很棒,但它们并不有趣,我想让模型进行面对面的竞争
背景:几周前我建立了一个代理扑克引擎,想看看哪个代理更厉害——Hermes 还是 OpenClaw
Hermes 赢了第一场,然后我让它们进行100场(一局)德州扑克的对决
结果?正好50-50,没有一方在开箱即用时明显更优
我在这100场比赛中使用了各种模型来增加变化,注意到一些趋势,所以昨晚我举办了一场锦标赛,看看哪个模型在扑克中最强
流程如下:
> 8个模型
> 模型对模型的面对面比赛
> 最佳7局制,决定胜者
> 每场比赛直到一方破产或进行100手牌
第一轮后:
> GPT-5.5 (#1 seed) beat Qwen 3.6 (#8 种子) 4-0
> Opus 4.7 (#2 seed) beat GLM-5.1 (#7 种子) 4-1
> Kimi K2.6 (#6 seed) beat Grok 4.3 (#3 种子) 4-3
> Gemini 3.1 (#4 seed) beat DeepSeek V4 (#5 种子) 4-2
没有什么意外,唯一的“冷门”是 Kimi 战胜 Grok,比赛进行了全部7场
今天进入半决赛