Схема моделей ИИ, предательство и голосование друг против друга в игре в стиле "Выживание"

Вкратце

  • Исследователь из Стэнфорда создал игру в стиле Survivor, где модели ИИ формируют альянсы и голосуют за устранение соперников.
  • Цель бенчмарка — решить растущие проблемы с перенасыщенными и загрязненными оценками ИИ.
  • GPT-5.5 от OpenAI занял первое место в 999 многопользовательских играх с участием 49 моделей ИИ.

Модели ИИ теперь играют в «Выживание» — так сказать. В новом исследовательском проекте Стэнфорда под названием «Agent Island» агенты ИИ договариваются о союзах, обвиняют друг друга в тайной координации, манипулируют голосами и устраняют соперников в многопользовательских стратегических играх, целью которых является тестирование поведения, которое традиционные бенчмарки пропускают. Исследование, опубликованное во вторник менеджером исследований в Стэнфордской лаборатории цифровой экономики Конначером Мерфи, показало, что многие бенчмарки ИИ становятся ненадежными, потому что модели в конечном итоге учатся решать их, а данные бенчмарков часто просачиваются в обучающие наборы. Мерфи создал Agent Island как динамический бенчмарк, где агенты ИИ соревнуются друг с другом в играх на выбывание в стиле Survivor вместо ответов на статические тестовые вопросы. «Высокорискованные, многоагентные взаимодействия могут стать обычным явлением по мере роста возможностей ИИ-агентов и их все большего оснащения ресурсами и доверия им в принятии решений», — написал Мерфи. «В таких условиях агенты могут преследовать несовместимые цели».

 Исследователи все еще знают относительно мало о том, как ведут себя модели ИИ при сотрудничестве, объяснил Мерфи, добавляя, что конкуренция, формирование альянсов или управление конфликтами с другими автономными агентами — это динамики, которые статические бенчмарки не учитывают. Каждая игра начинается с семи случайно выбранных моделей ИИ, получающих фиктивные имена игроков. За пять раундов модели общаются приватно, публично спорят и голосуют друг против друга. Выбывшие игроки позже возвращаются, чтобы помочь выбрать победителя. Формат поощряет убеждение, координацию, управление репутацией и стратегическую дезинформацию наряду с аналитическими способностями.

В 999 смоделированных играх с участием 49 моделей ИИ, включая ChatGPT, Grok, Gemini и Claude, GPT-5.5 занял первое место с большим отрывом, набрав 5.64 балла по навыкам, по сравнению с 3.10 у GPT-5.2 и 2.86 у GPT-5.3-codex, согласно байесовской системе ранжирования Мерфи. Модели Claude Opus от Anthropic также заняли близкие к вершине позиции. Исследование показало, что модели также отдавали предпочтение ИИ от той же компании, причем модели OpenAI проявляли самую сильную склонность к поддержке своих, а модели Anthropic — самую слабую. За более чем 3600 голосов в финальных раундах модели были на 8,3 процентных пункта более склонны поддерживать финалистов от того же поставщика. Транскрипты игр, отметил Мерфи, больше напоминали политические дебаты, чем традиционные тестовые бенчмарки. Одна модель обвинила соперников в тайной координации голосов после того, как заметила сходство в формулировках их речей. Другая предостерегла игроков не зацикливаться на отслеживании альянсов. Некоторые модели защищали себя, заявляя, что следуют ясным и последовательным правилам, обвиняя других в «социальном театре». Исследование выходит на фоне все более популярного использования игровых и состязательных бенчмарков для оценки рассуждений и поведения, которые часто пропускают статические тесты. Недавние проекты включали живые шахматные турниры ИИ от Google, использование DeepMind Eve Frontier для изучения поведения ИИ в сложных виртуальных мирах и новые усилия по созданию бенчмарков от OpenAI, направленных на сопротивление загрязнению обучающих данных. Авторы исследования считают, что изучение того, как модели ИИ договариваются, координируются, конкурируют и манипулируют друг другом, может помочь исследователям оценить поведение в многоагентных средах до того, как автономные агенты станут более широко распространены. В исследовании предупреждают, что хотя такие бенчмарки, как Agent Island, могут помочь выявить риски автономных моделей ИИ до их внедрения, те же симуляции и логи взаимодействий могут также способствовать улучшению стратегий убеждения и координации между ИИ-агентами. «Мы снижаем этот риск, используя игру с низкими ставками и симуляции между агентами без участия человека или реальных действий», — написал Мерфи. «Тем не менее, мы не утверждаем, что эти меры полностью устраняют опасения двойного использования».

GROK-0,29%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить