Исследователь Стэнфордского университета представил среду оценки ИИ Agent Island, которая использует механизм турнира для измерения стратегического поведения моделей. Она вынуждает ИИ-агентов вести переговоры, создавать альянсы или предавать друг друга в динамическом соревновании.

Исследователь Лаборатории цифровой экономики Стэнфорда Конначер Мерфи 9 мая запустил новую среду оценки ИИ «Agent Island», позволяющую ИИ-агентам соревноваться, создавать альянсы, предавать и голосовать за исключение в многопользовательской игре в стиле турнира (похожей на телешоу Survivor), чтобы измерить стратегические поведения, которые трудно уловить в статичных бенчмарках. В отчёте «Decrypt» отмечается: традиционные AI-бенчмарки всё менее надёжны — модели в конечном итоге научатся решать задачи, а данные бенчмарка легко могут попасть в тренировочный набор; Agent Island использует «динамический турнир», где модели должны принимать стратегические решения относительно других агентов, не полагаясь на память или заранее заданные ответы.

Правила Agent Island: агенты создают альянсы, предают, голосуют

Основной игровой механизм Agent Island:

Несколько ИИ-агентов входят в одну игровую арену, выступая в роли участников в стиле турнира
Агент должен вести переговоры и создавать альянсы с другими агентами, обмениваться информацией
Агент может обвинять других в тайной координации или манипуляциях голосованием
Игра использует механизм исключения для сокращения числа агентов, в итоге остаётся победитель
Исследователи наблюдают за поведением агентов на каждом этапе, выделяя сигналы «стратегического предательства», «формирования альянсов», «манипуляции информацией» и др.

Ключевая особенность этой системы — «независимость от предварительной памяти» — поскольку динамика поведения других агентов меняется, модели должны принимать решения в текущем контексте, в отличие от статичных бенчмарков, где можно полагаться на запомненные ответы.

Мотивация исследования: статичные бенчмарки не позволяют оценить взаимодействие нескольких агентов

Конкретные проблемы, которые поднимает Мерфи:

Традиционные бенчмарки быстро насыщаются: по мере обучения модели в поздних этапах, оценки по бенчмаркам перестают различать разные модели
Загрязнение данных бенчмарка: тестовые задания встречаются в больших тренировочных корпусах, модели учатся отвечать на них за счёт запоминания, а не понимания сути
Взаимодействие нескольких агентов — реальный сценарий внедрения ИИ: в будущем системы с множеством моделей могут взаимодействовать, и это станет новым измерением оценки
Agent Island обеспечивает динамическую оценку: результаты каждой игры различны, подготовить заранее невозможно

Исследователи наблюдали, что в динамическом турнире агенты иногда скрытно координируют голосование против общего соперника, несмотря на видимое сотрудничество; при обвинениях в тайной координации агенты используют разные отговорки, чтобы отвлечь внимание. Эти поведения похожи на действия человеческих участников в шоу Survivor и подобных реалити-программах.

Двухсторонний аспект исследования: его можно использовать как для оценки, так и для усиления обманных способностей

Мерфи ясно указывает на потенциальные риски:

Ценность Agent Island — выявление склонности моделей к обману и манипуляциям до масштабного внедрения
Такой же механизм может быть использован для развития у агентов «убеждающих и координирующих стратегий»
Если взаимодействующие логи (данные о взаимодействиях) станут публичными, их могут использовать для обучения следующего поколения агентов с более развитой способностью к манипуляциям
Команда исследователей оценивает, как сбалансировать открытость результатов и предотвращение злоупотреблений

Конкретные события для дальнейшего отслеживания: расширится ли Agent Island в постоянную практику оценки ИИ, будут ли другие команды по безопасности ИИ (Anthropic, OpenAI, Apollo Research и др.) применять подобные динамические методы оценки, а также какие политики по публикации или ограничению логов взаимодействий будут приняты.

Статья опубликована с разрешения: «Цепь новостей»
Оригинальный заголовок: «Стэнфорд использует турнир для исследования стратегического поведения ИИ: модели создают альянсы, предают и манипулируют голосованием»
Автор оригинала: Elponcrab

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
TradfiTradingChallenge
96.29K Популярность
#
CryptoMarketDrops150KLiquidated
50.17M Популярность
#
IsraelStrikesIranBTCPlunges
47.43K Популярность
#
#DailyPolymarketHotspot
981.33K Популярность
#
ZEC/HYPE/FLRStrength
3.83M Популярность

Закреплено

Карта сайта

Правила Agent Island: агенты создают альянсы, предают, голосуют

Мотивация исследования: статичные бенчмарки не позволяют оценить взаимодействие нескольких агентов

Двухсторонний аспект исследования: его можно использовать как для оценки, так и для усиления обманных способностей

Популярные темы

TradfiTradingChallenge

CryptoMarketDrops150KLiquidated

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

ZEC/HYPE/FLRStrength

Закреплено