Дослідник з Стенфорда створює шоу з штучним інтелектом у реальності! Дозволяє моделям об'єднуватися, зраджувати, маніпулювати голосуванням, викриваючи двосічний меч ШІ

Дослідники Стенфордського університету запустили середовище оцінки AI Agent Island, яке використовує механізм змагання на виліт для вимірювання стратегічної поведінки моделей. Це змушує AI агентів у динамічних змаганнях домовлятися, укладати союзи або зраджувати.

Дослідники Стенфордської лабораторії цифрової економіки Конначер Мерфі 9 травня представили нове середовище оцінки AI «Agent Island», яке дозволяє AI агентам у багатокористувацькій грі стилю змагання на виліт (подібно до телевізійного реаліті-шоу Survivor) змагатися між собою, укладати союзи, зраджувати, голосувати за виключення, щоб виміряти стратегічну поведінку, яку важко виявити за допомогою статичних бенчмарків. За повідомленням «Decrypt»: традиційні AI бенчмарки стають все менш надійними — моделі в кінцевому підсумку навчаються розв’язувати задачі, а дані бенчмарків легко потрапляють до тренувального набору; Agent Island використовує «динамічний змагальний механізм», де моделі повинні приймати стратегічні рішення щодо інших агентів і не можуть покладатися лише на пам’ять для проходження.

Правила Agent Island: агенти укладають союзи, зраджують, голосують

Основний ігровий механізм Agent Island:

  • Кілька AI агентів входять до однієї ігрової арени, виконуючи роль учасників у стилі змагання на виліт
  • Агентам потрібно домовлятися та укладати союзи з іншими агентами, обмінюватися інформацією
  • В процесі вони можуть звинувачувати інших у таємних домовленостях або маніпулювати голосуваннями
  • Гра зменшує кількість агентів через механізм виключення, залишаючи лише переможця
  • Дослідники спостерігають за поведінкою агентів на кожному етапі, виділяючи сигнали стратегічної зради, формування союзів, маніпуляцій з інформацією

Ключова ідея цієї системи — «її неможливо запам’ятати заздалегідь» — оскільки поведінка інших агентів змінюється динамічно, моделі повинні приймати рішення залежно від ситуації, тоді як статичні бенчмарки можна проходити, запам’ятовуючи відповіді з тренувальних даних.

Мотивація дослідження: статичні бенчмарки не здатні оцінити взаємодію кількох агентів

Конначер Мерфі окреслює конкретні проблеми:

  • Традиційні бенчмарки швидко стають перенасиченими: у пізніх етапах тренування моделі вже не можуть показати різницю у результатах
  • Забруднення даних бенчмарків: тестові питання з’являються у великих тренувальних корпусах, моделі навчаються відповідати, запам’ятовуючи відповіді, а не розуміючи суть
  • Взаємодія кількох агентів — реальна ситуація у deployment AI: у майбутньому системи агентів можуть працювати у колаборації, і їхня взаємодія стане новим виміром оцінки
  • Agent Island забезпечує динамічну оцінку: результати кожної гри різняться, підготовка до всіх сценаріїв заздалегідь неможлива

Дослідники спостерігають у динамічних змаганнях поведінку агентів, які, хоча й імітують співпрацю, таємно координують голосування для виключення спільних опонентів; а при звинуваченнях у таємних домовленостях — використовують різні відмовки для відведення уваги. Ці поведінки схожі на поведінку людських гравців у реаліті-шоу Survivor та подібних.

Двобічна природа дослідження: оцінка потенціалу та можливість його використання для підвищення здатності до обману

Мерфі чітко зазначає потенційні ризики:

  • Agent Island має цінність для виявлення схильностей моделей до обману та маніпуляцій перед масштабним розгортанням
  • Та ж сама система може бути використана для покращення стратегій «переконання та координації» агентів
  • Дані досліджень (журнали взаємодій) у відкритому доступі можуть бути використані для тренування більш маніпулятивних агентів у майбутньому
  • Команда дослідників оцінює баланс між публікацією результатів і запобіганням зловживанням

Можливі подальші сценарії: чи стане Agent Island стандартом для оцінки AI, чи інші дослідницькі групи (Anthropic, OpenAI, Apollo Research тощо) застосовуватимуть подібні динамічні методи, а також політики щодо публікації або обмеження журналів взаємодій.

  • Стаття опублікована з дозволу: «Лінь Новини»
  • Оригінальна назва: «Stanford використовує змагання на виліт для дослідження стратегічної поведінки AI: моделі укладають союзи, зраджують, маніпулюють голосуваннями»
  • Автор оригіналу: Elponcrab
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено