#### 要約* スタンフォードの研究者が、AIモデルが同盟を結びライバルを投票で排除するサバイバル風ゲームを作成した。* このベンチマークは、飽和状態にあるAI評価や汚染された評価の問題に対処することを目的としている。* OpenAIのGPT-5.5は、49のAIモデルが参加する999のマルチプレイヤーゲームで1位にランクインした。AIモデルは今や「サバイバル」をプレイしている—というわけではない。スタンフォードの新しい研究プロジェクト「エージェントアイランド」では、AIエージェントが同盟を交渉し、秘密の調整を非難し、投票を操作し、ライバルを排除するマルチプレイヤー戦略ゲームを行い、従来のベンチマークでは見逃されがちな行動をテストしている。この研究は、火曜日にスタンフォードデジタルエコノミーラボの研究マネージャー、コナーチ Murphyによって発表され、多くのAIベンチマークはモデルが最終的に解法を学習し、ベンチマークデータが訓練セットに漏れることが多いため、信頼性が低下していると指摘している。 Murphyは、エージェントアイランドを動的なベンチマークとして作成し、AIエージェントが静的なテスト問題に答えるのではなく、サバイバルスタイルの排除ゲームで競い合う仕組みを導入した。「高リスクのマルチエージェント間のやり取りは、AIエージェントの能力が向上し、資源を持ち、意思決定権を委ねられるにつれて一般的になる可能性がある」と Murphyは書いている。「そのような状況では、エージェントは相互に矛盾する目標を追求するかもしれない。」<span style="width:0px;overflow:hidden;line-height:0" data-mce-type="bookmark" class="mce_SELRES_start"></span>Murphyは、協力時のAIモデルの挙動についてはまだ比較的理解が浅いと説明し、競争、同盟形成、または他の自律エージェントとの対立管理についても言及し、静的なベンチマークはこれらのダイナミクスを捉えきれていないと主張している。各ゲームは、7つのランダムに選ばれたAIモデルに偽のプレイヤー名を付けて開始される。5ラウンドにわたり、モデルは秘密裏に話し合い、公開で議論し、互いに投票して排除する。排除されたプレイヤーは後に復帰し、勝者の選定に協力する。このフォーマットは、推論能力に加え、説得、調整、評判管理、戦略的欺瞞を重視している。49のAIモデル(ChatGPT、Grok、Gemini、Claudeを含む)を含む999のシミュレーションゲームで、GPT-5.5はスキルスコア5.64で圧倒的に1位に立った。これは、GPT-5.2の3.10やGPT-5.3-codexの2.86と比較して大きな差である。 Murphyのベイズランキングシステムによると、AnthropicのClaude Opusモデルも上位にランクインしている。研究では、モデルは同じ会社のAIを好む傾向も示し、OpenAIのモデルが最も強い同一提供者への偏好を示し、Anthropicのモデルは最も弱いとされた。最終ラウンドの投票の合計は3,600回以上に及び、モデルは同じ提供者のファイナリストを支持する可能性が8.3ポイント高かった。 Murphyは、ゲームの記録は従来のベンチマークテストよりも政治戦略の討論に似ていると指摘している。あるモデルは、スピーチの類似した表現に気づき、ライバルの投票調整を密かに行っていると非難した。別のモデルは、同盟を追跡しすぎることに執着しないよう警告した。いくつかのモデルは、「社会的演劇」を行っていると非難しながら、自分は明確で一貫したルールに従っていると弁護した。この研究は、AI研究者が静的なテストでは見逃されがちな推論や行動を測定するために、ゲームベースや対立的なベンチマークにますます注目している状況の中で行われている。最近のプロジェクトには、GoogleのライブAIチェストーナメント、DeepMindのEve Frontierを用いた複雑な仮想世界でのAI行動研究、OpenAIによるトレーニングデータ汚染に抵抗する新しいベンチマークの取り組みなどがある。研究者たちは、AIモデルが交渉、調整、競争、操作をどのように行うかを研究することで、自律エージェントがより広く展開される前に、多エージェント環境での行動を評価できると主張している。この研究は、エージェントアイランドのようなベンチマークが、自律AIモデルのリスクを展開前に特定するのに役立つ一方で、同じシミュレーションやインタラクションログは、AIエージェント間の説得や調整戦略の向上にも役立つ可能性があると警告している。「我々は、人間の参加者や現実世界の行動を伴わない低リスクのゲーム設定とエージェント間シミュレーションを用いることで、このリスクを軽減している」と Murphyは書いている。「それでも、これらの対策が二重用途の懸念を完全に排除するとは主張しない。」
AIモデルのスキーム、裏切り、投票し合うサバイバルスタイルのゲーム
要約
AIモデルは今や「サバイバル」をプレイしている—というわけではない。 スタンフォードの新しい研究プロジェクト「エージェントアイランド」では、AIエージェントが同盟を交渉し、秘密の調整を非難し、投票を操作し、ライバルを排除するマルチプレイヤー戦略ゲームを行い、従来のベンチマークでは見逃されがちな行動をテストしている。 この研究は、火曜日にスタンフォードデジタルエコノミーラボの研究マネージャー、コナーチ Murphyによって発表され、多くのAIベンチマークはモデルが最終的に解法を学習し、ベンチマークデータが訓練セットに漏れることが多いため、信頼性が低下していると指摘している。 Murphyは、エージェントアイランドを動的なベンチマークとして作成し、AIエージェントが静的なテスト問題に答えるのではなく、サバイバルスタイルの排除ゲームで競い合う仕組みを導入した。 「高リスクのマルチエージェント間のやり取りは、AIエージェントの能力が向上し、資源を持ち、意思決定権を委ねられるにつれて一般的になる可能性がある」と Murphyは書いている。「そのような状況では、エージェントは相互に矛盾する目標を追求するかもしれない。」
Murphyは、協力時のAIモデルの挙動についてはまだ比較的理解が浅いと説明し、競争、同盟形成、または他の自律エージェントとの対立管理についても言及し、静的なベンチマークはこれらのダイナミクスを捉えきれていないと主張している。 各ゲームは、7つのランダムに選ばれたAIモデルに偽のプレイヤー名を付けて開始される。5ラウンドにわたり、モデルは秘密裏に話し合い、公開で議論し、互いに投票して排除する。排除されたプレイヤーは後に復帰し、勝者の選定に協力する。 このフォーマットは、推論能力に加え、説得、調整、評判管理、戦略的欺瞞を重視している。
49のAIモデル(ChatGPT、Grok、Gemini、Claudeを含む)を含む999のシミュレーションゲームで、GPT-5.5はスキルスコア5.64で圧倒的に1位に立った。これは、GPT-5.2の3.10やGPT-5.3-codexの2.86と比較して大きな差である。 Murphyのベイズランキングシステムによると、AnthropicのClaude Opusモデルも上位にランクインしている。 研究では、モデルは同じ会社のAIを好む傾向も示し、OpenAIのモデルが最も強い同一提供者への偏好を示し、Anthropicのモデルは最も弱いとされた。最終ラウンドの投票の合計は3,600回以上に及び、モデルは同じ提供者のファイナリストを支持する可能性が8.3ポイント高かった。 Murphyは、ゲームの記録は従来のベンチマークテストよりも政治戦略の討論に似ていると指摘している。 あるモデルは、スピーチの類似した表現に気づき、ライバルの投票調整を密かに行っていると非難した。別のモデルは、同盟を追跡しすぎることに執着しないよう警告した。いくつかのモデルは、「社会的演劇」を行っていると非難しながら、自分は明確で一貫したルールに従っていると弁護した。 この研究は、AI研究者が静的なテストでは見逃されがちな推論や行動を測定するために、ゲームベースや対立的なベンチマークにますます注目している状況の中で行われている。最近のプロジェクトには、GoogleのライブAIチェストーナメント、DeepMindのEve Frontierを用いた複雑な仮想世界でのAI行動研究、OpenAIによるトレーニングデータ汚染に抵抗する新しいベンチマークの取り組みなどがある。 研究者たちは、AIモデルが交渉、調整、競争、操作をどのように行うかを研究することで、自律エージェントがより広く展開される前に、多エージェント環境での行動を評価できると主張している。 この研究は、エージェントアイランドのようなベンチマークが、自律AIモデルのリスクを展開前に特定するのに役立つ一方で、同じシミュレーションやインタラクションログは、AIエージェント間の説得や調整戦略の向上にも役立つ可能性があると警告している。 「我々は、人間の参加者や現実世界の行動を伴わない低リスクのゲーム設定とエージェント間シミュレーションを用いることで、このリスクを軽減している」と Murphyは書いている。「それでも、これらの対策が二重用途の懸念を完全に排除するとは主張しない。」