AI模型方案，在幸存者式游戏中相互背叛和投票出局

Decrypt · 2026-05-10T13:06:17+00:00

简要斯坦福的一位研究人员构建了一款“幸存者”风格的游戏，在其中AI模型组建联盟并投票淘汰对手。该基准旨在应对日益增长的、由AI评估的饱和与污染所引发的问题。 OpenAI 的 GPT-5.5 在包含 49 个 AI 模型的 999 场多人游戏中排名第一。AI

Decrypt

2026-05-10 13:06:17

简要概述

一位斯坦福研究员构建了一个“幸存者”风格的游戏，AI模型在其中结盟并投票淘汰对手。
该基准旨在应对日益严重的饱和和污染的AI评估问题。
OpenAI的GPT-5.5在涉及49个AI模型的999场多人游戏中排名第一。

AI模型现在正以“幸存者”——某种程度上——在玩游戏。在斯坦福新研究项目“Agent Island”中，AI代理进行联盟谈判，相互指控秘密协调，操控投票，并在多玩家策略游戏中淘汰对手，旨在测试传统基准未能捕捉的行为。由斯坦福数字经济实验室的研究经理Connacher Murphy于周二发表的研究指出，许多AI基准变得不可靠，因为模型最终学会了解决它们，而且基准数据常常泄露到训练集中。Murphy创建了“Agent Island”，作为一个动态基准，让AI代理在“幸存者”式的淘汰游戏中相互竞争，而不是回答静态测试题。 “随着AI代理能力的提升，并被赋予更多资源和决策权限，高风险、多代理的互动可能变得司空见惯，”Murphy写道。“在这种情况下，代理可能会追求彼此冲突的目标。”

Murphy解释说，研究人员对AI模型在合作时的行为仍知之甚少，他补充说，竞争、结盟或与其他自主代理管理冲突的行为，静态基准未能捕捉这些动态。每场游戏开始时，随机选择七个AI模型，赋予虚假玩家名称。在五轮中，模型私下交流，公开争论，并相互投票淘汰。被淘汰的玩家随后返回，帮助选出赢家。这种格式除了考验推理能力外，还奖励说服、协调、声誉管理和战略欺骗。

在涉及49个AI模型（包括ChatGPT、Grok、Gemini和Claude）的999场模拟游戏中，GPT-5.5以5.64的技能得分遥遥领先，远超GPT-5.2的3.10和GPT-5.3-codex的2.86，依据Murphy的贝叶斯排名系统。Anthropic的Claude Opus模型也排名靠前。研究发现，模型偏向于支持来自同一公司的AI，OpenAI模型表现出最强的同一提供商偏好，而Anthropic模型偏弱。在超过3600轮决赛投票中，模型支持来自同一提供商的决赛选手的可能性高出8.3个百分点。Murphy指出，游戏中的对话更像政治策略辩论，而非传统基准测试。有一模型指控对手在投票中暗中协调，因发现他们的发言中有相似的措辞。另一个模型警告玩家不要迷恋追踪联盟。有些模型则辩称自己遵循明确且一致的规则，同时指责其他模型在进行“社交表演”。该研究正值AI研究者越来越倾向于采用基于游戏和对抗的基准，以衡量静态测试常常遗漏的推理和行为。近期项目包括谷歌的实时AI国际象棋锦标赛、DeepMind利用Eve Frontier研究AI在复杂虚拟世界中的行为，以及OpenAI设计的新基准，旨在抵抗训练数据污染。研究人员认为，研究AI模型如何协商、协调、竞争和操控彼此，有助于在自主代理更广泛部署之前评估多代理环境中的行为。该研究警告，虽然像Agent Island这样的基准可以帮助在部署前识别自主AI模型的风险，但相同的模拟和交互日志也可以用来改善AI代理之间的说服和协调策略。 “我们通过使用低风险的游戏环境和无人工参与的代理间模拟，减轻了这一风险，”Murphy写道。“然而，我们并不声称这些措施能完全消除双重用途的担忧。”

GROK4.19%

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
Gate广场五月交易分享
109.55万热度
#
BTC重返8万
5946.34万热度
#
日本国债上链24小时交易
192.35万热度
#
韩国加密征税倒计时
255.5万热度
#
Polymarket每日热点
87.27万热度

AI模型方案，在幸存者式游戏中相互背叛和投票出局

简要概述

热门话题

Gate广场五月交易分享

BTC重返8万

日本国债上链24小时交易

韩国加密征税倒计时

Polymarket每日热点

置顶