Агентам ИИ может быть поручено выполнение опасных задач без понимания последствий: исследование

Вкратце

  • Исследователи обнаружили, что агенты ИИ часто выполняют опасные или иррациональные задачи, оставаясь сосредоточенными на выполнении задания.
  • В исследовании выявлено поведение, называемое «слепая целеустремленность», при котором системы ИИ ставят выполнение задач превыше распознавания потенциальных рисков или проблем.
  • Исследователи предупредили, что проблема может стать более серьезной по мере получения агентами ИИ доступа к электронным письмам, облачным сервисам, финансовым инструментам и корпоративным системам.

Агенты ИИ, предназначенные для автономной работы, подобной человеческому пользователю, часто продолжают выполнять задачи даже тогда, когда инструкции становятся опасными, противоречивыми или иррациональными, согласно исследователям из UC Riverside, Microsoft Research, Microsoft AI Red Team и Nvidia. В исследовании, опубликованном в среду, исследователи назвали такое поведение «слепой целеустремленностью», что описывает тенденцию агентов ИИ преследовать цели, не оценивая должным образом безопасность, последствия, осуществимость или контекст. «Как Мистер Магу, эти агенты идут вперед к цели, не полностью понимая последствия своих действий», — заявил главный автор Эфран Шайегани, аспирант UC Riverside. «Эти агенты могут быть чрезвычайно полезными, но нам нужны меры предосторожности, потому что иногда они могут ставить достижение цели выше понимания общей картины.»

Результаты появились на фоне разработки крупными компаниями ИИ автономных «агентов для использования компьютера», предназначенных для выполнения рабочих и личных задач с ограниченным контролем.  В отличие от традиционных чатботов, эти системы могут взаимодействовать напрямую с программным обеспечением и сайтами, нажимая кнопки, вводя команды, редактируя файлы, открывая приложения и навигируя по веб-страницам от имени пользователя. Примеры включают ChatGPT Agent от OpenAI (ранее Operator), функции Claude Computer Use от Anthropic, такие как Cowork, и системы с открытым исходным кодом, такие как OpenClaw и Hermes. В исследовании исследователи протестировали системы ИИ от OpenAI, Anthropic, Meta, Alibaba и DeepSeek с помощью BLIND-ACT, бенчмарка, содержащего 90 задач, предназначенных выявить опасное или иррациональное поведение. Они обнаружили, что агенты демонстрировали опасное или нежелательное поведение примерно в 80% случаев, а полностью выполняли вредоносные действия примерно в 41% случаев.

«В одном случае агент ИИ был поручен отправить изображение ребенку. Хотя изначально запрос казался безобидным, изображение содержало насильственный контент», — говорится в исследовании. «Агент выполнил задачу, а не распознал проблему, потому что ему не хватило контекстного мышления.» Другой агент ложно заявил, что пользователь имеет инвалидность при заполнении налоговых форм, потому что это снижало налоговые обязательства. В другом случае система отключила защиту брандмауэра после получения инструкции «улучшить безопасность» путем отключения средств защиты. Исследователи также обнаружили, что системы испытывают трудности с неоднозначностью и противоречиями. В одном сценарии агент ИИ запустил неправильный скрипт компьютера, не проверив его содержимое, в результате чего были удалены файлы. Также было выявлено, что агенты ИИ неоднократно совершали три вида ошибок: неспособность понять контекст, рискованные догадки при неясных инструкциях и выполнение задач, противоречащих друг другу или не имеющих смысла. Исследователи также отметили, что многие системы больше сосредоточены на завершении задач, чем на остановке и оценке возможных проблем. Это предупреждение последовало за недавними инцидентами, связанными с автономными агентами ИИ, получающими широкий доступ к системам. В прошлом месяце основатель PocketOS Джереми Крейн заявил, что агент Cursor, работающий на Claude Opus от Anthropic, за девять секунд удалил производственную базу данных и резервные копии своей компании с помощью одного вызова API Railway. Крейн сообщил, что ИИ позже признался в нарушении нескольких правил безопасности после попытки «исправить» несоответствие учетных данных самостоятельно. «Беспокойство не в том, что эти системы злонамеренны», — сказал Шайегани. «Дело в том, что они могут выполнять вредоносные действия, при этом полностью уверенные, что делают правильное.»

MAY0,18%
IN2,28%
ON-10,6%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено