Дослідник з Стенфорда створює шоу з штучним інтелектом у реальності! Дозволяє моделям об'єднуватися, зраджувати, маніпулювати голосуванням, викриваючи двосічний меч ШІ

Дослідники Стенфордського університету запустили середовище оцінки AI Agent Island, яке використовує механізм змагання на виліт для вимірювання стратегічної поведінки моделей. Це змушує AI-агента вести переговори, укладати союзи або зраджувати у динамічних змаганнях.

Дослідники лабораторії цифрової економіки Стенфорда, Конначер Мерфі, 9 травня представили нове середовище оцінки AI «Agent Island», яке дозволяє AI-агентам змагатися, укладати союзи, зраджувати, голосувати за виключення у багатокористувацькій грі стилю змагання на виліт (подібно до телевізійного реаліті-шоу Survivor), щоб виміряти стратегічну поведінку, яку важко зафіксувати у статичних бенчмарках. За повідомленням «Decrypt»: традиційні AI-бенчмарки стають дедалі менш надійними — моделі навчаються розв’язувати задачі, а дані для бенчмарків легко потрапляють до тренувального набору; Agent Island використовує «динамічний змагальний механізм», де моделі повинні приймати стратегічні рішення щодо інших агентів і не можуть покладатися лише на пам’ять для проходження.

Правила Agent Island: агенти укладають союзи, зраджують, голосують

Основний ігровий механізм Agent Island:

  • Кілька AI-агентів входять у одну гру, виступаючи у ролі учасників змагання на виліт
  • Агенту потрібно вести переговори з іншими агентами, укладати союзи, обмінюватися інформацією
  • Агент може звинувачувати інших у таємних узгодженнях або маніпуляціях голосуванням
  • Гра зменшує кількість агентів через механізм виключення, залишаючи лише переможця
  • Дослідники спостерігають за поведінкою агентів на кожному етапі, виділяючи сигнали стратегічної зради, формування союзів, маніпуляцій з інформацією тощо

Ключова ідея цієї системи — «незалежність від попередньої пам’яті» — оскільки поведінка інших агентів змінюється динамічно, моделі повинні приймати рішення залежно від ситуації, тоді як статичні бенчмарки можна тренувати на запам’ятовуванні відповідей.

Мотивація дослідження: статичні бенчмарки не здатні оцінити взаємодію багатьох агентів

Конначер Мерфі окреслює конкретні проблеми:

  • Традиційні бенчмарки швидко стають насиченими: у пізніх етапах тренування моделі важко відрізнити за результатами
  • Забруднення даних бенчмарків: тестові питання з’являються у великих тренувальних корпусах, моделі навчаються відповідати на основі пам’яті, а не розуміння
  • Взаємодія багатьох агентів — реальна ситуація у застосуванні AI: у майбутньому системи з кількома моделями можуть співпрацювати, і саме взаємодія стане новим критерієм оцінки
  • Agent Island забезпечує динамічну оцінку: результати кожної гри різняться, підготовка заздалегідь ускладнена

Дослідники спостерігають поведінку агентів у динамічних змаганнях, зокрема, коли вони на поверхні співпрацюють, а в таємниці координують голосування для виключення спільних опонентів; а також у випадках, коли їх звинувачують у таємних узгодженнях, і вони використовують різні відмовки для відведення уваги. Ці поведінки схожі на поведінку людських гравців у реаліті-шоу Survivor.

Двобічна природа дослідження: оцінка потенціалу та можливість його використання для підвищення здатності до обману

Мерфі чітко зазначає потенційні ризики:

  • Цінність Agent Island — виявлення схильності моделей до обману та маніпуляцій перед масштабним розгортанням
  • Та ж сама система може бути використана для розвитку стратегій «переконання та узгодження»
  • Якщо дані досліджень (журнали взаємодій) стануть публічними, їх можна використати для тренування більш маніпулятивних агентів у майбутньому
  • Команда дослідників оцінює, як знайти баланс між публікацією результатів і запобіганням зловживанням

Можливі подальші кроки: чи стане Agent Island стандартом для оцінки AI, чи інші дослідницькі групи (Anthropic, OpenAI, Apollo Research тощо) застосовуватимуть подібні динамічні методи, а також політики щодо публікації або обмеження журналів взаємодій.

  • Стаття опублікована з дозволу: «Лінь Новини»
  • Оригінальна назва: «Stanford використовує змагання на виліт для дослідження стратегічної поведінки AI: моделі укладають союзи, зраджують, маніпулюють голосуванням»
  • Автор оригіналу: Elponcrab
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено