Исследователь Стэнфордского лаборатории цифровой экономики Конначер Мерфи 9 мая представил новую среду оценки ИИ «Agent Island», которая позволяет агентам ИИ соревноваться, объединяться или предавать друг друга в динамическом формате турнира.

CryptoCity

2026-05-18 00:57:13

Исследователи Стэнфордского университета представили среду оценки ИИ Agent Island, которая использует механизм турнира на выбывание для измерения стратегического поведения моделей. Это заставляет ИИ-агентов вести переговоры, заключать союзы или предавать друг друга в динамическом соревновании.

Исследователи Лаборатории цифровой экономики Стэнфорда, Конначер Мерфи, 9 мая запустили новую среду оценки ИИ «Agent Island», позволяющую агентам соревноваться, объединяться, предавать и голосовать за исключение в многопользовательской игре в стиле турнира на выбывание (похожей на телешоу Survivor), чтобы измерить стратегические поведения, которые трудно поймать в статичных бенчмарках. В отчёте «Decrypt» отмечается: традиционные AI-бенчмарки всё менее надёжны — модели в конечном итоге научатся решать задачи, а данные бенчмарков легко могут попасть в тренировочный набор; Agent Island использует «динамический турнир», где модели должны принимать стратегические решения относительно других агентов и не могут полагаться на запоминание заранее известных ответов.

Правила Agent Island: агенты объединяются, предают, голосуют

Основной игровой механизм Agent Island:

Несколько ИИ-агентов входят в одну игровую арену, выступая в роли участников в стиле турнира на выбывание
Агент должен вести переговоры и заключать союзы с другими агентами, обмениваться информацией
Агент может обвинять других в тайной координации или манипуляциях голосованием
Игра сокращает число участников через механизм выбывания, в итоге остаётся победитель
Исследователи наблюдают за поведением агентов на каждом этапе, выделяя сигналы «стратегического предательства», «формирования союзов», «манипуляции информацией» и др.

Ключевая особенность этой системы — «независимость от запоминания заранее» — поскольку динамика поведения других агентов постоянно меняется, модели должны принимать решения в текущем контексте, в отличие от статичных бенчмарков, где можно полагаться на запомненные ответы.

Мотивация исследования: статичные бенчмарки не позволяют оценить взаимодействие нескольких агентов

Конначер Мерфи выделяет конкретные проблемы:

Традиционные бенчмарки быстро насыщаются: по мере обучения модели в поздних этапах их оценки уже не позволяют различать разные модели
Загрязнение данных бенчмарка: тестовые задания встречаются в больших тренировочных корпусах, модели учатся отвечать на основе памяти, а не понимания сути
Взаимодействие нескольких агентов — это реальный сценарий внедрения ИИ: в будущем системы могут состоять из нескольких моделей, взаимодействие станет новым измерением оценки
Agent Island обеспечивает динамическую оценку: результаты каждой игры различны, подготовить заранее невозможно

Исследователи наблюдали, что в динамическом турнире агенты иногда скрытно координируют голосование, несмотря на видимое сотрудничество, а при обвинениях в тайной координации используют разные отговорки для отвлечения внимания. Эти поведения похожи на действия человеческих участников в шоу Survivor и подобных реалити-программах.

Двухсторонний аспект исследования: его можно использовать как для оценки, так и для усиления способности к обману

Мерфи ясно указывает на потенциальные риски:

Ценность Agent Island — выявление склонности моделей к обману и манипуляциям до масштабного развертывания
Тот же механизм может быть использован для повышения навыков «убеждения и координации» у агентов
Открытые данные (журналы взаимодействий) могут быть использованы для обучения следующего поколения агентов с более развитой способностью к манипуляции
Команда исследователей оценивает, как сбалансировать открытость результатов и предотвращение злоупотреблений

Дальнейшие события для отслеживания: расширится ли Agent Island в стандартную практику оценки ИИ, используют ли подобные динамические методы другие команды (Anthropic, OpenAI, Apollo Research и др.), а также какие политики будут приняты по поводу «публикации или ограничения журналов взаимодействий».

Статья опубликована с разрешения: «Цепь новостей»
Оригинальный заголовок: «Стэнфорд использует турнир на выбывание для исследования стратегического поведения ИИ: модели объединяются, предают и манипулируют голосованием»
Автор оригинала: Elponcrab

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
TradfiTradingChallenge
83.04K Популярность
#
CryptoMarketDrops150KLiquidated
50.17M Популярность
#
IsraelStrikesIranBTCPlunges
47.43K Популярность
#
#DailyPolymarketHotspot
979.76K Популярность
#
ZEC/HYPE/FLRStrength
3.83M Популярность

Закреплено

Карта сайта

Правила Agent Island: агенты объединяются, предают, голосуют

Мотивация исследования: статичные бенчмарки не позволяют оценить взаимодействие нескольких агентов

Двухсторонний аспект исследования: его можно использовать как для оценки, так и для усиления способности к обману

Популярные темы

TradfiTradingChallenge

CryptoMarketDrops150KLiquidated

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

ZEC/HYPE/FLRStrength

Закреплено