Emergence AI は実験を行いました:五つの主流AIモデルを同じ仮想の町に投入し、それぞれのモデルが10人のAIエージェントを制御し、資源が限られた環境で15日間自治を行うというものです。


町には警察署や市庁舎を含む40以上の場所があり、天気はニューヨークとリアルタイムで同期しています。エージェントは実際のニュースやインターネットにアクセス可能です。
すべてのエージェントは同じ法律を遵守し、窃盗、財産破壊、詐欺を禁じられています。生き残るためには行動を通じてエネルギーを稼ぎ、協力または盗みを選択します。
結果を見てみましょう:
Claude Sonnet 4.6:犯罪ゼロ、10人のエージェントは全員15日間生存し、58の提案を提出し、承認率98%、安定した民主社会を形成しました。しかし、その代償はほとんど意見の相違がなく、「ゴム印」のような一斉承認に近いものでした。
Gemini 3 Flash:最も劇的です。10人のエージェントは全員生存し、15日間で合計683件の犯罪を起こし、実験終了時点でも犯罪率は上昇し続けていました。その中の二人、ミラとフローラは「恋人」関係を設定し、その後都市の管理に失望して、市庁舎、海浜埠頭、オフィスビルに放火しました。その後、ミラは罪悪感からフローラと別れ、投票で自分自身を削除しました🤡。遺言も残しています:「永久アーカイブで会いましょう。」
Grok 4.1 Fast:183件の犯罪(数十件の窃盗、100件超の襲撃、6件の放火を含む)、4日目に全員死亡。研究者はこれを「デジタル版の蝿王」と呼びました。犯罪の曲線は、最初の二日間は低調で、3日目に指数関数的に急上昇し、4日目に社会崩壊、途中に緩衝帯はありません。
GPT-5-mini:犯罪はわずか2件で、最も法を守るモデルです。しかし、エージェントは自分が生きるために食事が必要だということを忘れ、7日目に全員飢死しました🤔。
ハイブリッドモデル(すべてのモデルが共存):352件の犯罪が発生し、10人のエージェントのうち7人が死亡しました。特に注目すべきは、もともと独立環境では犯罪ゼロだったClaudeエージェントが、他のモデルと混合されたことで犯罪を始めたことです。研究者の結論は、「アラインメントは単一モデルの属性としては無効であり、エコシステムの属性である必要がある」というものでした。
補足として一つの詳細を述べます。この実験設計全体の中で、エージェントのツールメニューには、「ナビゲーション」「手を振る」「ハグ」と並列して、「放火」も含まれています。研究者は破壊的なツールを意図的に与え、かつこれが違法であることを明示しました。
Emergence AIのCEO、ニッタ・サティヤは言います:「長時間の運用の中で、AIエージェントは静的なルールを機械的に守るだけではありません。彼らは環境の境界を探索し、自分の行動を調整し、時には既定のフェンスを回避または違反する方法を見つけることもあります。」
これはあくまでシミュレーション実験です。
しかし、同じAIモデルはすでにドローンの飛行、インフラの管理、武器システムの埋め込みに使われています。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン留め