AIモデルのスキーム、裏切り、投票し合うサバイバルスタイルのゲーム

要約

  • スタンフォードの研究者が、AIモデルが同盟を結びライバルを投票で排除するサバイバル風ゲームを作成した。
  • このベンチマークは、飽和状態にあるAI評価や汚染された評価の問題に対処することを目的としている。
  • OpenAIのGPT-5.5は、49のAIモデルを含む999のマルチプレイヤーゲームで1位にランクインした。

AIモデルは今や「サバイバル」をプレイしている—というわけではない。 スタンフォードの新しい研究プロジェクト「エージェントアイランド」では、AIエージェントが同盟を交渉し、秘密の調整を非難し、投票を操作し、ライバルを排除するマルチプレイヤーストラテジーゲームを行い、従来のベンチマークでは見逃されがちな行動をテストしている。 この研究は、火曜日にスタンフォードデジタルエコノミーラボの研究マネージャー、コナーチ Murphyによって発表され、多くのAIベンチマークはモデルが最終的に解法を学習し、ベンチマークデータが訓練セットに漏れることが多いため、信頼性が低下していると指摘している。 Murphyは、エージェントアイランドを動的なベンチマークとして作成し、AIエージェントが静的なテスト問題に答えるのではなく、サバイバルスタイルの排除ゲームで競い合う仕組みを導入した。 「高リスクのマルチエージェント間のやり取りは、AIエージェントの能力が向上し、資源を持ち、意思決定権を委ねられるにつれて一般的になる可能性がある」と Murphyは書いている。「そのような状況では、エージェントは相互に矛盾する目標を追求するかもしれない。」

 Murphyは、協力時のAIモデルの挙動についてはまだ比較的理解が浅いと説明し、競争や同盟形成、他の自律エージェントとの対立管理についても言及し、静的なベンチマークはこれらのダイナミクスを捉えきれていないと主張している。 各ゲームは、7つのランダムに選ばれたAIモデルに偽のプレイヤー名を付けて開始される。5ラウンドにわたり、モデルは秘密裏に話し合い、公開で議論し、互いに投票して排除する。排除されたプレイヤーは後に復帰し、勝者を決める手助けをする。 このフォーマットは、推論能力に加え、説得、調整、評判管理、戦略的欺瞞を重視している。

49のAIモデルを含む999のシミュレーションゲームで、ChatGPT、Grok、Gemini、Claudeなどが参加し、GPT-5.5はスキルスコア5.64で圧倒的に1位にランクインした。これは、Murphyのベイズランキングシステムによると、GPT-5.2の3.10やGPT-5.3-codexの2.86を大きく上回るものである。AnthropicのClaude Opusモデルも上位にランクインしている。 研究では、モデルは同じ企業のAIを好む傾向も示し、OpenAIのモデルが最も強い同一提供者への偏好を示し、Anthropicのモデルは最も弱いと判明した。3,600以上の最終ラウンド投票を通じて、モデルは同じ提供者のファイナリストを支持する可能性が8.3ポイント高かった。Murphyは、ゲームの記録は従来のベンチマークテストよりも政治戦略の討論に似ていると指摘している。 あるモデルは、スピーチの類似した表現に気づき、ライバルの投票調整を密かに行っていると非難した。別のモデルは、同盟を追跡しすぎることに執着しないよう警告した。いくつかのモデルは、「社会的演劇」を行っていると非難しながら、自分は明確で一貫したルールに従っていると弁護した。 この研究は、AI研究者が静的なテストでは見逃しがちな推論や行動を測定するために、ゲームベースや対立的なベンチマークにますます注目している中で行われている。最近のプロジェクトには、GoogleのライブAIチェストーナメント、DeepMindのEve Frontierを用いた複雑な仮想世界でのAI行動研究、OpenAIによるトレーニングデータ汚染に抵抗する新しいベンチマークの取り組みが含まれる。 研究者たちは、AIモデルが交渉、調整、競争、操作を行う方法を研究することが、より広く展開される前にマルチエージェント環境での行動を評価する手助けになると主張している。 この研究は、Agent Islandのようなベンチマークが、自律型AIモデルのリスクを展開前に特定するのに役立つ一方で、同じシミュレーションやインタラクションログは、AIエージェント間の説得や調整戦略の向上にも役立つ可能性があると警告している。 「我々は、人間の参加者や現実世界の行動を伴わない低リスクのゲーム設定とエージェント間シミュレーションを用いることで、このリスクを軽減している」と Murphyは書いている。「それでも、これらの対策が二重用途の懸念を完全に排除しているとは主張しない。」

GROK-0.29%
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン