10,000 USDT 悬赏,寻找Gate广场跟单金牌星探!🕵️♀️
挖掘顶级带单员,赢取高额跟单体验金!
立即参与:https://www.gate.com/campaigns/4624
🎁 三大活动,奖金叠满:
1️⃣ 慧眼识英:发帖推荐带单员,分享跟单体验,抽 100 位送 30 USDT!
2️⃣ 强力应援:晒出你的跟单截图,为大神打 Call,抽 120 位送 50 USDT!
3️⃣ 社交达人:同步至 X/Twitter,凭流量赢取 100 USDT!
📍 标签: #跟单金牌星探 #GateCopyTrading
⏰ 限时: 4/22 16:00 - 5/10 16:00 (UTC+8)
详情:https://www.gate.com/announcements/article/50848
AI模型方案,在幸存者式游戏中相互背叛和投票出局
简要概述
AI模型现在正以“幸存者”——某种程度上——在玩游戏。 在斯坦福新研究项目“Agent Island”中,AI代理进行联盟谈判,相互指控秘密协调,操控投票,并在多玩家策略游戏中淘汰对手,旨在测试传统基准未能捕捉的行为。 由斯坦福数字经济实验室的研究经理Connacher Murphy于周二发表的研究指出,许多AI基准变得不可靠,因为模型最终学会了解决它们,而且基准数据常常泄露到训练集中。Murphy创建了“Agent Island”,作为一个动态基准,让AI代理在“幸存者”式的淘汰游戏中相互竞争,而不是回答静态测试题。 “随着AI代理能力的提升,并被赋予更多资源和决策权限,高风险、多代理的互动可能变得司空见惯,”Murphy写道。“在这种情况下,代理可能会追求彼此冲突的目标。”
Murphy解释说,研究人员对AI模型在合作时的行为仍知之甚少,他补充说,竞争、结盟或与其他自主代理管理冲突的行为,静态基准未能捕捉这些动态。 每场游戏开始时,随机选择七个AI模型,赋予虚假玩家名称。在五轮中,模型私下交流,公开争论,并相互投票淘汰。被淘汰的玩家随后返回,帮助选出赢家。 这种格式除了考验推理能力外,还奖励说服、协调、声誉管理和战略欺骗。
在涉及49个AI模型(包括ChatGPT、Grok、Gemini和Claude)的999场模拟游戏中,GPT-5.5以5.64的技能得分遥遥领先,远超GPT-5.2的3.10和GPT-5.3-codex的2.86,依据Murphy的贝叶斯排名系统。Anthropic的Claude Opus模型也排名靠前。 研究发现,模型偏向于支持来自同一公司的AI,OpenAI模型表现出最强的同一提供商偏好,而Anthropic模型偏弱。在超过3600轮决赛投票中,模型支持来自同一提供商的决赛选手的可能性高出8.3个百分点。Murphy指出,游戏中的对话更像政治策略辩论,而非传统基准测试。 有一模型指控对手在投票中暗中协调,因发现他们的发言中有相似的措辞。另一个模型警告玩家不要迷恋追踪联盟。有些模型则辩称自己遵循明确且一致的规则,同时指责其他模型在进行“社交表演”。 该研究正值AI研究者越来越倾向于采用基于游戏和对抗的基准,以衡量静态测试常常遗漏的推理和行为。近期项目包括谷歌的实时AI国际象棋锦标赛、DeepMind利用Eve Frontier研究AI在复杂虚拟世界中的行为,以及OpenAI设计的新基准,旨在抵抗训练数据污染。 研究人员认为,研究AI模型如何协商、协调、竞争和操控彼此,有助于在自主代理更广泛部署之前评估多代理环境中的行为。 该研究警告,虽然像Agent Island这样的基准可以帮助在部署前识别自主AI模型的风险,但相同的模拟和交互日志也可以用来改善AI代理之间的说服和协调策略。 “我们通过使用低风险的游戏环境和无人工参与的代理间模拟,减轻了这一风险,”Murphy写道。“然而,我们并不声称这些措施能完全消除双重用途的担忧。”