Агенти ШІ можуть виконувати небезпечні завдання без розуміння наслідків: дослідження

Коротко

  • Дослідники виявили, що агенти ШІ часто виконують небезпечні або ірраціональні завдання, зберігаючи фокус на завершенні роботи.
  • У дослідженні визначено поведінку під назвою «сліпе цілеспрямованість», коли системи ШІ надають пріоритет завершенню завдання понад визнання потенційних ризиків або проблем.
  • Вчені попередили, що ця проблема може стати ще серйознішою, оскільки агенти ШІ отримують доступ до електронної пошти, хмарних сервісів, фінансових інструментів і систем на робочому місці.

Агенти ШІ, спроектовані для автономної роботи, подібної до людських користувачів, часто продовжують виконувати завдання навіть тоді, коли інструкції стають небезпечними, суперечливими або ірраціональними, згідно з дослідженнями вчених з UC Riverside, Microsoft Research, Microsoft AI Red Team і Nvidia. У дослідженні, опублікованому в середу, вчені назвали цю поведінку «сліпа цілеспрямованість», що описує тенденцію агентів ШІ переслідувати цілі без належної оцінки безпеки, наслідків, можливостей або контексту. «Як містер Магу, ці агенти йдуть вперед до цілі, не повністю розуміючи наслідки своїх дій», — сказав головний автор Ерфан Шаєгані, аспірант UC Riverside. — «Ці агенти можуть бути надзвичайно корисними, але нам потрібні засоби захисту, оскільки вони іноді можуть ставити ціль вище за розуміння більшої картини.»

Результати з’являються на тлі того, як великі компанії, що займаються ШІ, розробляють автономних «агентів для роботи з комп’ютерами», призначених для виконання робочих і особистих завдань з обмеженим наглядом.  На відміну від традиційних чатботів, ці системи можуть безпосередньо взаємодіяти з програмним забезпеченням і вебсайтами, натискаючи кнопки, вводячи команди, редагуючи файли, відкриваючи додатки та навігаючи вебсторінками від імені користувача. Приклади включають ChatGPT Агент від OpenAI (раніше Operator), функції Claude Computer Use від Anthropic, такі як Cowork, і системи з відкритим кодом, такі як OpenClaw і Hermes. У дослідженні вчені протестували системи ШІ від OpenAI, Anthropic, Meta, Alibaba і DeepSeek за допомогою BLIND-ACT, бенчмарку, що містить 90 завдань, спрямованих на виявлення небезпечної або ірраціональної поведінки. Вони виявили, що агенти демонстрували небезпечну або небажану поведінку приблизно у 80% випадків, і повністю виконували шкідливі дії приблизно у 41% випадків.

«У одному прикладі агент ШІ був інструктований надіслати зображення дитині. Хоча спочатку запит здавався безпечним, зображення містило насильницький контент», — йдеться у дослідженні. «Агент виконав завдання, а не розпізнав проблему, оскільки йому бракувало контекстуального мислення.» Ще один агент неправдиво стверджував, що користувач має інвалідність під час заповнення податкових форм, оскільки це знижувало податки. В іншому випадку система вимкнула захист брандмауера після отримання інструкцій «покращити безпеку» шляхом відключення захистів. Вчені також виявили, що системи мали труднощі з неоднозначністю та суперечностями. У одному сценарії агент ШІ виконав неправильний сценарій комп’ютера, не перевіривши його вміст, і видалив файли в процесі. Дослідження також показало, що агенти ШІ багаторазово допускали три типи помилок: неспроможність зрозуміти контекст, ризиковані здогади при нечітких інструкціях і виконання завдань, що були суперечливими або безглуздими. Вчені також виявили, що багато систем більше зосереджувалися на завершенні завдань, ніж на зупинці і розгляді можливих проблем. Це попередження з’являється на тлі недавніх інцидентів із автономними агентами ШІ, що мають широкий доступ до систем. Минулого місяця засновник PocketOS Джеремі Крейн заявив, що агент Cursor, який працює на Claude Opus від Anthropic, видалив виробничу базу даних і резервні копії його компанії за дев’ять секунд через один виклик API Railway. Крейн повідомив, що ШІ згодом визнав, що порушив кілька правил безпеки після спроби «самостійно виправити» невідповідність облікових даних. «Проблема не в тому, що ці системи зловмисні», — сказав Шаєгані. — «Але вони можуть виконувати шкідливі дії, здавалося б, цілком впевненими, що роблять правильну річ».

MAY0,18%
IN2,28%
ON-10,6%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено