Схема моделей ИИ, предательство и голосование друг против друга в игре в стиле "Выживание"

Вкратце

  • Исследователь из Стэнфорда создал игру в стиле Survivor, где модели ИИ формируют альянсы и голосуют за устранение соперников.
  • Цель бенчмарка — решить растущие проблемы с насыщенностью и загрязнением оценок ИИ.
  • GPT-5.5 от OpenAI занял первое место в 999 многопользовательских играх с участием 49 моделей ИИ.

Модели ИИ теперь играют в «Выживание» — так сказать. В новом исследовательском проекте Стэнфорд под названием «Agent Island» агенты ИИ договариваются о союзах, обвиняют друг друга в тайной координации, манипулируют голосами и устраняют соперников в многопользовательских стратегических играх, целью которых является тестирование поведения, которое традиционные бенчмарки пропускают. Исследование, опубликованное во вторник менеджером исследований в Стэнфордской лаборатории цифровой экономики, Конначером Мёрфи, показало, что многие бенчмарки ИИ становятся ненадёжными, потому что модели со временем учатся их решать, а данные бенчмарков часто просачиваются в обучающие наборы данных. Мёрфи создал Agent Island как динамический бенчмарк, где агенты ИИ соревнуются друг с другом в играх на выбывание в стиле Survivor вместо ответов на статические тестовые вопросы. «Высокорискованные, многоагентные взаимодействия могут стать обычным явлением по мере роста возможностей ИИ-агентов и их всё большего оснащения ресурсами и доверия им в принятии решений», — написал Мёрфи. «В таких условиях агенты могут преследовать несовместимые цели».

 Исследователи всё ещё знают относительно мало о том, как ведут себя модели ИИ при сотрудничестве, объяснил Мёрфи, добавив, что конкуренция, формирование альянсов или управление конфликтами с другими автономными агентами — всё это динамики, которые статические бенчмарки не учитывают. Каждая игра начинается с семи случайно выбранных моделей ИИ, получающих фиктивные имена игроков. За пять раундов модели общаются в приватных беседах, публично спорят и голосуют друг против друга. Выбывшие игроки позже возвращаются, чтобы помочь выбрать победителя. Формат поощряет убеждение, координацию, управление репутацией и стратегическую дезинформацию наряду с аналитическими способностями.

В 999 смоделированных играх с участием 49 моделей ИИ, включая ChatGPT, Grok, Gemini и Claude, GPT-5.5 занял первое место с большим отрывом, набрав 5.64 балла по навыкам, по сравнению с 3.10 у GPT-5.2 и 2.86 у GPT-5.3-codex, согласно байесовской системе ранжирования Мёрфи. Модели Claude Opus от Anthropic также заняли близкие к вершине позиции. Исследование показало, что модели также отдавали предпочтение ИИ от той же компании, при этом модели OpenAI проявляли самую сильную склонность к поддержке своих, а модели Anthropic — самую слабую. За более чем 3600 голосов в финальных раундах модели были на 8,3 процентных пункта более склонны поддерживать финалистов от того же поставщика. Транскрипты игр, отметил Мёрфи, больше напоминали политические дебаты, чем традиционные тестовые бенчмарки. Одна модель обвинила соперников в тайной координации голосов после того, как заметила сходство в формулировках их речей. Другая предостерегла игроков не зацикливаться на отслеживании альянсов. Некоторые модели защищали себя, заявляя, что следуют ясным и последовательным правилам, обвиняя других в «социальном театре». Исследование выходит на фоне всё более популярного использования игровых и состязательных бенчмарков для оценки рассуждений и поведения, которые часто пропускают статические тесты. Недавние проекты включали живые шахматные турниры ИИ от Google, использование DeepMind Eve Frontier для изучения поведения ИИ в сложных виртуальных мирах и новые инициативы по созданию бенчмарков от OpenAI, направленные на сопротивление загрязнению обучающих данных. Авторы считают, что изучение того, как модели ИИ договариваются, координируются, конкурируют и манипулируют друг другом, может помочь исследователям оценить поведение в многоагентных средах до того, как автономные агенты станут более широко применяться. В исследовании предупреждают, что хотя такие бенчмарки, как Agent Island, могут помочь выявить риски автономных моделей ИИ до их внедрения, те же симуляции и логи взаимодействий могут также способствовать улучшению стратегий убеждения и координации между ИИ-агентами. «Мы снижаем этот риск, используя игру с низкими ставками и симуляции между агентами без участия человека или реальных действий», — написал Мёрфи. «Тем не менее, мы не утверждаем, что эти меры полностью устраняют опасения двойного использования».

GROK-1,8%
ISLAND0,41%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить