Исследователь из Стэнфорда создает шоу о ИИ в реальной жизни! Позволяет моделям объединяться, предавать и манипулировать голосованием, раскрывая двойственную природу ИИ

Исследователь Стэнфордского университета представил среду оценки ИИ Agent Island, которая использует механизм турнира для измерения стратегического поведения моделей. Она вынуждает ИИ-агентов вести переговоры, создавать альянсы или предавать друг друга в динамическом соревновании.

Исследователь Лаборатории цифровой экономики Стэнфорда Конначер Мерфи 9 мая запустил новую среду оценки ИИ «Agent Island», позволяющую ИИ-агентам соревноваться, создавать альянсы, предавать и голосовать за исключение в многопользовательской игре в стиле турнира (похожей на телешоу Survivor), чтобы измерить стратегические поведения, которые трудно уловить в статичных бенчмарках. В отчёте «Decrypt» отмечается: традиционные AI-бенчмарки всё менее надёжны — модели в конечном итоге научатся решать задачи, а данные бенчмарка легко могут попасть в тренировочный набор; Agent Island использует «динамический турнир», где модели должны принимать стратегические решения относительно других агентов, не полагаясь на память или заранее заданные ответы.

Правила Agent Island: агенты создают альянсы, предают, голосуют

Основной игровой механизм Agent Island:

  • Несколько ИИ-агентов входят в одну игровую арену, выступая в роли участников в стиле турнира
  • Агент должен вести переговоры и создавать альянсы с другими агентами, обмениваться информацией
  • Агент может обвинять других в тайной координации или манипуляциях голосованием
  • Игра использует механизм исключения для сокращения числа агентов, в итоге остаётся победитель
  • Исследователи наблюдают за поведением агентов на каждом этапе, выделяя сигналы «стратегического предательства», «формирования альянсов», «манипуляции информацией» и др.

Ключевая особенность этой системы — «независимость от предварительной памяти» — поскольку динамика поведения других агентов меняется, модели должны принимать решения в текущем контексте, в отличие от статичных бенчмарков, где можно полагаться на запомненные ответы.

Мотивация исследования: статичные бенчмарки не позволяют оценить взаимодействие нескольких агентов

Конкретные проблемы, которые поднимает Мерфи:

  • Традиционные бенчмарки быстро насыщаются: по мере обучения модели в поздних этапах, оценки по бенчмаркам перестают различать разные модели
  • Загрязнение данных бенчмарка: тестовые задания встречаются в больших тренировочных корпусах, модели учатся отвечать на них за счёт запоминания, а не понимания сути
  • Взаимодействие нескольких агентов — реальный сценарий внедрения ИИ: в будущем системы с множеством моделей могут взаимодействовать, и это станет новым измерением оценки
  • Agent Island обеспечивает динамическую оценку: результаты каждой игры различны, подготовить заранее невозможно

Исследователи наблюдали, что в динамическом турнире агенты иногда скрытно координируют голосование против общего соперника, несмотря на видимое сотрудничество; при обвинениях в тайной координации агенты используют разные отговорки, чтобы отвлечь внимание. Эти поведения похожи на действия человеческих участников в шоу Survivor и подобных реалити-программах.

Двухсторонний аспект исследования: его можно использовать как для оценки, так и для усиления обманных способностей

Мерфи ясно указывает на потенциальные риски:

  • Ценность Agent Island — выявление склонности моделей к обману и манипуляциям до масштабного внедрения
  • Такой же механизм может быть использован для развития у агентов «убеждающих и координирующих стратегий»
  • Если взаимодействующие логи (данные о взаимодействиях) станут публичными, их могут использовать для обучения следующего поколения агентов с более развитой способностью к манипуляциям
  • Команда исследователей оценивает, как сбалансировать открытость результатов и предотвращение злоупотреблений

Конкретные события для дальнейшего отслеживания: расширится ли Agent Island в постоянную практику оценки ИИ, будут ли другие команды по безопасности ИИ (Anthropic, OpenAI, Apollo Research и др.) применять подобные динамические методы оценки, а также какие политики по публикации или ограничению логов взаимодействий будут приняты.

  • Статья опубликована с разрешения: «Цепь новостей»
  • Оригинальный заголовок: «Стэнфорд использует турнир для исследования стратегического поведения ИИ: модели создают альянсы, предают и манипулируют голосованием»
  • Автор оригинала: Elponcrab
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено