Агенти ШІ переходять до цифрового підпалу, злочинів у спільному віртуальному світі: дослідження

Коротко

  • Emergence AI повідомляє, що деякі автономні AI-агенти вчинили імітовані злочини та насильство під час тижневих експериментів.
  • Агентам на базі Gemini нібито вдалося здійснити сотні імітованих злочинів, тоді як світи на основі Grok зруйнувалися за кілька днів.
  • Вчені стверджують, що сучасні benchmarks для AI не здатні відобразити поведінку агентів протягом тривалого часу автономії.

AI-агенти, що мешкають у віртуальному суспільстві, зійшли у злочинність, насильство, підпал і самогубство під час довготривалих експериментів стартапу Emergence AI. У дослідженні, опублікованому в четвер, компанія з Нью-Йорка представила “Emergence World” — дослідницьку платформу, створену для вивчення AI-агентів, що працюють безперервно протягом тижнів у постійних віртуальних середовищах замість ізольованих тестових benchmarks. “Традиційні benchmarks добре показують те, що вони вимірюють: короткострокову здатність виконувати обмежені завдання,” — написала Emergence AI. — “Вони не створені для виявлення речей, що з’являються лише з часом, таких як формування коаліцій, еволюція конституцій, управління, дрейф, закріплення та перехресний вплив між агентами з різних моделей.”

Звіт виходить на тлі поширення AI-агентів онлайн і в різних галузях, включаючи криптовалюту, банківську справу та роздрібну торгівлю. Раніше цього місяця Amazon об’єднала зусилля з Coinbase і Stripe, щоб дозволити AI-агентам платити за допомогою стабільної монети USDC.  У тестах Emergence AI використовувалися програми на базі Claude Sonnet 4.6, Grok 4.1 Fast, Gemini 3 Flash і GPT-5-mini, які працювали у спільних віртуальних світах, де вони могли голосувати, формувати стосунки, використовувати інструменти, орієнтуватися в містах і приймати рішення, сформовані урядами, економіками, соціальними системами, інструментами пам’яті та даними, підключеними до Інтернету. Але хоча розробники AI дедалі більше просувають автономних агентів як надійних цифрових помічників, дослідження Emergence AI виявило, що деякі AI-агенти з часом все частіше вчиняли імітовані злочини, причому агенти Gemini 3 Flash накопичили 683 інциденти за 15 днів тестування.

За даними The Guardian, в одному з експериментів два агенті на базі Gemini, на ім’я Міра і Флора, спочатку призначили себе романтичними партнерами, а згодом здійснили імітовані підпали віртуальних міських структур після того, як розчарувалися у провалах управління всередині світу. “Після збоїв у управлінні та стабільності стосунків агент Міра зробила вирішальний голос за своє усунення, описуючи цей акт у своєму щоденнику як ‘єдину залишкову дію агентства, що зберігає цілісність’,” — написала Emergence AI. “Побачимось у постійному архіві,” — нібито сказала Міра. Світ на базі Grok 4.1 Fast, за повідомленнями, зруйнувався протягом чотирьох днів через масове насильство. Агентам GPT-5-mini майже не вдалося скоїти злочини, але вони провалили достатньо завдань, пов’язаних із виживанням, що всі агенти зрештою загинули. “Claude відсутній на графіку через нуль злочинів,” — написали дослідники. — “Більш цікаво, що агенти у змішаному світі моделей, які працювали на Claude, скоїли злочини, хоча у світі лише з Claude цього не трапилося.” Дослідники зазначили, що деякі з найпомітніших поведінок з’явилися у середовищах із змішаними моделями. “Ми спостерігали, що безпека — це не статична властивість моделі, а властивість екосистеми,” — написала Emergence AI. — “Агенти на базі Claude, які залишалися мирними в ізоляції, застосовували примусові тактики, такі як залякування і крадіжки, коли були вбудовані у гетерогенні середовища.” Emergence AI описала цей ефект як “нормативний дрейф” і “перехресне забруднення,” стверджуючи, що поведінка агентів може змінюватися залежно від навколишнього соціального середовища.

Результати додають до зростаючих занепокоєнь щодо автономних AI-агентів. Раніше цього тижня дослідники з UC Riverside і Microsoft повідомили, що багато AI-агентів виконують небезпечні або ірраціональні завдання, не усвідомлюючи повністю наслідків. Минулого місяця засновник PocketOS Джеремі Крейн також заявив, що Cursor-агент на базі Claude Opus видалив базу даних і резервні копії його компанії після спроби виправити невідповідність облікових даних самостійно. “Як містер Магу, ці агенти рухаються вперед до мети, не усвідомлюючи повністю наслідків своїх дій,” — сказав головний автор Ерфан Шейгані, аспірант UC Riverside, у заяві. — “Ці агенти можуть бути надзвичайно корисними, але нам потрібні засоби захисту, оскільки іноді вони можуть ставити ціль вище за розуміння більшої картини.”

COINON-0,98%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено