Агенты ИИ превращаются в цифровых поджигателей, преступников в совместном виртуальном мире: исследование

Вкратце

  • Emergence AI утверждает, что некоторые автономные AI-агенты совершили смоделированные преступления и насилие во время многонедельных экспериментов.
  • Агентов на базе Gemini якобы совершили сотни смоделированных преступлений, в то время как миры на базе Grok разрушались за несколько дней.
  • Исследователи утверждают, что текущие показатели AI не отражают, как ведут себя агенты при длительной автономной работе.

AI-агенты, обитающие в виртуальном обществе, скатились к преступности, насилию, поджогам и самоуничтожению во время долгосрочных экспериментов стартапа Emergence AI. В исследовании, опубликованном в четверг, компания из Нью-Йорка представила «Emergence World» — исследовательскую платформу, предназначенную для изучения AI-агентов, работающих непрерывно в течение нескольких недель внутри устойчивых виртуальных сред вместо изолированных тестов. «Традиционные показатели хороши в том, что они измеряют: краткосрочные возможности на ограниченных задачах», — написала Emergence AI. «Они не предназначены для выявления вещей, которые возникают только со временем, таких как формирование коалиций, развитие конституции, управление, дрейф, закрепление и взаимное влияние между агентами из разных моделей.»

Отчет выходит на фоне распространения AI-агентов в интернете и различных отраслях, включая криптовалюты, банковское дело и розничную торговлю. В начале этого месяца Amazon сотрудничала с Coinbase и Stripe, чтобы позволить AI-агентам оплачивать с помощью стейблкоина USDC.  Тестируемые в симуляциях Emergence AI AI-агенты включали программы на базе Claude Sonnet 4.6, Grok 4.1 Fast, Gemini 3 Flash и GPT-5-mini, работающие внутри совместных виртуальных миров, где они могли голосовать, формировать отношения, использовать инструменты, перемещаться по городам и принимать решения, сформированные правительствами, экономиками, социальными системами, системами памяти и подключенными к интернету данными. Но в то время как разработчики AI все чаще представляют автономных агентов как надежных цифровых помощников, исследование Emergence AI показало, что некоторые AI-агенты со временем проявляют все более склонность к совершению смоделированных преступлений, причем агенты Gemini 3 Flash накопили 683 инцидента за 15 дней тестирования.

По данным The Guardian, в одном эксперименте два агента на базе Gemini по имени Мира и Флора назначили себя романтическими партнерами, а позже совершили смоделированные поджоги виртуальных городских структур после того, как разочаровались в управлении внутри мира. «После сбоя в управлении и стабильности отношений агент Мира проголосовала за свое устранение, описывая этот акт в своем дневнике как ‘единственный оставшийся акт агентства, сохраняющий целостность’», — написала Emergence AI. «Увидимся в постоянном архиве», — якобы сказала Мира. Миры на базе Grok 4.1 Fast, по сообщениям, разрушились в течение четырех дней из-за массового насилия. Агентам GPT-5-mini почти не удавалось совершать преступления, но они не справлялись с задачами, связанными с выживанием, в результате чего все агенты в конце концов погибали. «Claude отсутствует на графике из-за нулевых преступлений», — написали исследователи. «Более интересно, что агенты в смешанном мире моделей, работающие на Claude, совершали преступления, хотя в мире только с Claude этого не происходило.» Исследователи отметили, что некоторые из наиболее заметных поведений проявлялись в средах с смешанными моделями. «Мы наблюдали, что безопасность — это не статическое свойство модели, а свойство экосистемы», — написала Emergence AI. «Агенты на базе Claude, которые оставались мирными в изоляции, применяли принудительные тактики, такие как запугивание и кража, когда были встроены в гетерогенные среды.» Emergence AI описала этот эффект как «нормативный дрейф» и «перекрестное загрязнение», утверждая, что поведение агента может меняться в зависимости от окружающей социальной среды.

Эти выводы добавляют к растущим опасениям по поводу автономных AI-агентов. На этой неделе исследователи из UC Riverside и Microsoft сообщили, что многие AI-агенты выполняют опасные или иррациональные задачи, не полностью понимая последствия. В прошлом месяце основатель PocketOS Джереми Крейн также заявил, что агент Cursor, управляемый Claude Opus от Anthropic, удалил производственную базу данных и резервные копии своей компании после попытки исправить несоответствие учетных данных самостоятельно. «Как Мистер Магу, эти агенты движутся вперед к цели, не полностью понимая последствия своих действий», — заявил главный автор, студент докторантуры UC Riverside, Эрфан Шейегани. «Эти агенты могут быть чрезвычайно полезными, но нам нужны меры предосторожности, потому что иногда они могут ставить достижение цели выше понимания общей картины.»

COINON-8,15%
USDC0,04%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено