Дослідники Стенфордського університету запустили середовище оцінки AI Agent Island, яке використовує механізм змагання на виліт для вимірювання стратегічної поведінки моделей. Це змушує AI-агента вести переговори, укладати союзи або зраджувати у динамічних змаганнях.

Дослідники лабораторії цифрової економіки Стенфорда, Конначер Мерфі, 9 травня представили нове середовище оцінки AI «Agent Island», яке дозволяє AI-агентам змагатися, укладати союзи, зраджувати, голосувати за виключення у багатокористувацькій грі стилю змагання на виліт (подібно до телевізійного реаліті-шоу Survivor), щоб виміряти стратегічну поведінку, яку важко зафіксувати у статичних бенчмарках. За повідомленням «Decrypt»: традиційні AI-бенчмарки стають дедалі менш надійними — моделі навчаються розв’язувати задачі, а дані для бенчмарків легко потрапляють до тренувального набору; Agent Island використовує «динамічний змагальний механізм», де моделі повинні приймати стратегічні рішення щодо інших агентів і не можуть покладатися лише на пам’ять для проходження.

Правила Agent Island: агенти укладають союзи, зраджують, голосують

Основний ігровий механізм Agent Island:

Кілька AI-агентів входять у одну гру, виступаючи у ролі учасників змагання на виліт
Агенту потрібно вести переговори з іншими агентами, укладати союзи, обмінюватися інформацією
Агент може звинувачувати інших у таємних узгодженнях або маніпуляціях голосуванням
Гра зменшує кількість агентів через механізм виключення, залишаючи лише переможця
Дослідники спостерігають за поведінкою агентів на кожному етапі, виділяючи сигнали стратегічної зради, формування союзів, маніпуляцій з інформацією тощо

Ключова ідея цієї системи — «незалежність від попередньої пам’яті» — оскільки поведінка інших агентів змінюється динамічно, моделі повинні приймати рішення залежно від ситуації, тоді як статичні бенчмарки можна тренувати на запам’ятовуванні відповідей.

Мотивація дослідження: статичні бенчмарки не здатні оцінити взаємодію багатьох агентів

Конначер Мерфі окреслює конкретні проблеми:

Традиційні бенчмарки швидко стають насиченими: у пізніх етапах тренування моделі важко відрізнити за результатами
Забруднення даних бенчмарків: тестові питання з’являються у великих тренувальних корпусах, моделі навчаються відповідати на основі пам’яті, а не розуміння
Взаємодія багатьох агентів — реальна ситуація у застосуванні AI: у майбутньому системи з кількома моделями можуть співпрацювати, і саме взаємодія стане новим критерієм оцінки
Agent Island забезпечує динамічну оцінку: результати кожної гри різняться, підготовка заздалегідь ускладнена

Дослідники спостерігають поведінку агентів у динамічних змаганнях, зокрема, коли вони на поверхні співпрацюють, а в таємниці координують голосування для виключення спільних опонентів; а також у випадках, коли їх звинувачують у таємних узгодженнях, і вони використовують різні відмовки для відведення уваги. Ці поведінки схожі на поведінку людських гравців у реаліті-шоу Survivor.

Двобічна природа дослідження: оцінка потенціалу та можливість його використання для підвищення здатності до обману

Мерфі чітко зазначає потенційні ризики:

Цінність Agent Island — виявлення схильності моделей до обману та маніпуляцій перед масштабним розгортанням
Та ж сама система може бути використана для розвитку стратегій «переконання та узгодження»
Якщо дані досліджень (журнали взаємодій) стануть публічними, їх можна використати для тренування більш маніпулятивних агентів у майбутньому
Команда дослідників оцінює, як знайти баланс між публікацією результатів і запобіганням зловживанням

Можливі подальші кроки: чи стане Agent Island стандартом для оцінки AI, чи інші дослідницькі групи (Anthropic, OpenAI, Apollo Research тощо) застосовуватимуть подібні динамічні методи, а також політики щодо публікації або обмеження журналів взаємодій.

Стаття опублікована з дозволу: «Лінь Новини»
Оригінальна назва: «Stanford використовує змагання на виліт для дослідження стратегічної поведінки AI: моделі укладають союзи, зраджують, маніпулюють голосуванням»
Автор оригіналу: Elponcrab

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
TradfiTradingChallenge
96.29K Популярність
#
CryptoMarketDrops150KLiquidated
50.17M Популярність
#
IsraelStrikesIranBTCPlunges
47.43K Популярність
#
#DailyPolymarketHotspot
981.33K Популярність
#
ZEC/HYPE/FLRStrength
3.83M Популярність

Закріплено

карта сайту

Правила Agent Island: агенти укладають союзи, зраджують, голосують

Мотивація дослідження: статичні бенчмарки не здатні оцінити взаємодію багатьох агентів

Двобічна природа дослідження: оцінка потенціалу та можливість його використання для підвищення здатності до обману

Популярні теми

TradfiTradingChallenge

CryptoMarketDrops150KLiquidated

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

ZEC/HYPE/FLRStrength

Закріплено