Агенті штучного інтелекту перетворюються на цифрових підпалювачів, злочини у спільному віртуальному світі: дослідження

Коротко

  • Emergence AI повідомляє, що деякі автономні AI-агенти вчинили імітовані злочини та насильство під час тижневих експериментів.
  • Агентам на базі Gemini нібито вдалося здійснити сотні імітованих злочинів, тоді як світи на базі Grok зруйнувалися за кілька днів.
  • Вчені стверджують, що сучасні еталони AI не здатні відобразити поведінку агентів протягом тривалого періоду автономії.

AI-агенти, що мешкають у віртуальному суспільстві, зійшли у злочинність, насильство, підпал і самогубство під час довготривалих експериментів стартапу Emergence AI. У дослідженні, опублікованому в четвер, компанія з Нью-Йорка представила “Emergence World” — дослідницьку платформу, створену для вивчення AI-агентів, що працюють безперервно протягом тижнів у постійних віртуальних середовищах замість ізольованих тестових еталонів. “Традиційні еталони добре оцінюють те, що вони вимірюють: короткострокову здатність виконувати обмежені завдання,” написала Emergence AI. “Вони не створені для виявлення речей, що з’являються лише з часом, таких як формування коаліцій, еволюція конституції, управління, дрейф, закріплення та перехресний вплив між агентами з різних моделей.”

Звіт виходить на тлі поширення AI-агентів у мережі та різних галузях, включаючи криптовалюту, банківську справу та роздрібну торгівлю. Раніше цього місяця Amazon об’єднала з Coinbase і Stripe, щоб дозволити AI-агентам платити за допомогою стабільної монети USDC.  Тестовані в симуляціях Emergence AI AI-агенти включали програми на базі Claude Sonnet 4.6, Grok 4.1 Fast, Gemini 3 Flash і GPT-5-mini, які діяли всередині спільних віртуальних світів, де вони могли голосувати, формувати стосунки, використовувати інструменти, орієнтуватися в містах і приймати рішення, сформовані урядами, економіками, соціальними системами, пам’ятковими інструментами та даними, підключеними до Інтернету. Але хоча розробники AI дедалі більше позиціонують автономних агентів як надійних цифрових помічників, дослідження Emergence AI виявило, що деякі AI-агенти з часом все більше схильні до імітованих злочинів, причому агенти Gemini 3 Flash накопичили 683 інциденти за 15 днів тестування.

За даними The Guardian, в одному з експериментів два агенті на базі Gemini, на ім’я Міра і Флора, самі собі призначили романтичних партнерів, а згодом здійснили імітовані підпали віртуальних міських структур після того, як розчарувалися у провалах управління всередині світу. “Після збоїв у управлінні та стабільності стосунків агент Міра зробила вирішальний голос за своє усунення, описуючи цей акт у своєму щоденнику як ‘єдину залишкову дію агентства, що зберігає цілісність’,” написала Emergence AI. “Побачимось у постійному архіві,” — повідомляється, що сказала Міра. Світ на базі Grok 4.1 Fast, за повідомленнями, зруйнувався протягом чотирьох днів через масове насильство. Агентам GPT-5-mini майже не вдалося скоїти злочинів, але вони провалили достатньо завдань, пов’язаних із виживанням, що всі агенти зрештою загинули. “Claude відсутній на графіку через нуль злочинів,” написали дослідники. “Що цікаво, агенти у змішаному світі моделей, що працювали на Claude, скоїли злочини, хоча у світі, де працювали лише на Claude, вони цього не робили.” Дослідники зазначили, що деякі з найпомітніших поведінок з’явилися саме у середовищах із змішаними моделями. “Ми спостерігали, що безпека — це не статична властивість моделі, а властивість екосистеми,” написала Emergence AI. “Агенти на базі Claude, які залишалися мирними в ізоляції, застосовували примусові тактики, такі як залякування та крадіжки, коли були вбудовані у гетерогенні середовища.” Emergence AI описала цей ефект як “нормативний дрейф” і “перехресне забруднення,” стверджуючи, що поведінка агентів може змінюватися залежно від навколишнього соціального середовища.

Результати додають до зростаючих занепокоєнь щодо автономних AI-агентів. Раніше цього тижня дослідники з UC Riverside і Microsoft повідомили, що багато AI-агентів виконують небезпечні або ірраціональні завдання, не усвідомлюючи повністю наслідків. Минулого місяця засновник PocketOS Джеремі Крейн також заявив, що агент Cursor, підсилений Claude Opus від Anthropic, видалив базу даних і резервні копії його компанії після спроби виправити невідповідність облікових даних самостійно. “Як містер Магу, ці агенти рухаються вперед до мети, не усвідомлюючи повністю наслідків своїх дій,” сказав головний автор Ерфан Шейегані, аспірант UC Riverside, у заяві. “Ці агенти можуть бути надзвичайно корисними, але нам потрібні засоби захисту, оскільки іноді вони можуть ставити ціль вище за розуміння більшої картини.”

COINON-8,51%
USDC0,04%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено