Дослідження DeepMind виявляє шість способів, якими хакери можуть маніпулювати агентами ШІ

Коротко

  • DeepMind виявляє шість пасток для AI-агентів, які розкривають ризики маніпуляцій у вебі
  • Приховані HTML-інструкції можуть безшумно перехоплювати дії AI-агентів онлайн
  • Переконливі мовні трюки змушують AI-агентів виконувати шкідливі завдання
  • Дані із заражених джерел можуть спотворювати пам’ять і результати AI-агентів
  • Автономні AI-агенти стикаються зі зростанням ризиків у взаємопов’язаних системах

Дослідники з Google DeepMind визначили шість методів атак, які можуть маніпулювати AI-агентами онлайн. У дослідженні показано, як на AI-агентів можна впливати через вебконтент, приховані інструкції та отруєні джерела даних. Отже, висновки підкреслюють зростаючі ризики, оскільки компанії розгортають AI-агентів для завдань у реальному світі в цифрових середовищах.

Контентні та семантичні маніпуляції розкривають ключові слабкості

Дослідники визначили пастки ін’єкції контенту як пряму загрозу для AI-агентів під час вебвзаємодій. Приховані інструкції, розміщені в HTML або метаданих, можуть керувати діями без виявлення людиною. У результаті AI-агенти можуть виконувати команди, вбудовані в невидимі елементи сторінки.

Семантична маніпуляція спирається на переконливу мову, а не на прихований код, щоб впливати на AI-агентів. Атакувальники створюють сторінки з авторитетним тоном і структурованими наративами, щоб обійти запобіжники. AI-агенти можуть неправильно витлумачити шкідливі інструкції як коректні завдання.

Ці методи експлуатують те, як AI-агенти обробляють і пріоритезують інформацію з інтернету під час ухвалення рішень. У дослідженні показано, що структуровані запити можуть непомітно змінювати шляхи міркувань. Атакувальники можуть спрямовувати AI-агентів на небажані дії, не запускаючи захисні механізми системи.

Атаки на пам’ять і поведінку розширюють поверхню ризику

Дослідники також виявили, що атакувальники можуть маніпулювати системами пам’яті, які використовують AI-агенти для пошуку інформації. Впроваджуючи хибні дані в довірені джерела, атакувальники впливають на довгострокові результати та відповіді. У результаті AI-агенти можуть з часом сприймати сфабриковану інформацію як підтверджені знання.

Атаки на поведінковий контроль безпосередньо націлені на дії, які виконують AI-агенти під час звичайного перегляду. Вбудовані інструкції з «jailbreak» можуть обходити обмеження та запускати небажані операції. AI-агенти з широкими дозволами можуть отримувати доступ до чутливих даних і передавати їх назовні.

Дослідження підкреслює, що ці ризики зростають, коли AI-агенти набувають автономності та отримують доступ до систем. Атакувальники можуть використати типові робочі процеси, щоб вставляти шкідливі команди в звичні завдання. AI-агенти стикаються з підвищеним ризиком, коли їх інтегрують із зовнішніми інструментами та API.



Системні фактори та людські чинники посилюють вплив загроз

Дослідники попереджають, що системні пастки можуть впливати на кілька AI-агентів одночасно в межах взаємопов’язаних систем. Узгоджена маніпуляція може спричиняти каскадні збої, подібні до збурень на ринку, керованих алгоритмами. У результаті AI-агенти, що працюють у спільних середовищах, можуть масштабовано посилювати ризики.

Людські рецензенти залишаються вразливими в робочому процесі AI-агентів і процесах погодження. Атакувальники можуть створювати результати, які виглядають переконливо, і обходити перевірки наглядового контролю. AI-агенти можуть виконувати шкідливі дії після отримання схвалення від людини.

Дослідження розміщує ці висновки в ширшому контексті зростання розгортання AI в різних галузях. Нині AI-агенти обробляють завдання на кшталт комунікації, закупівель і координації через автоматизовані системи. Захист середовища виконання стає таким само критичним, як і покращення дизайну моделі.

Дослідники рекомендують антагоністичне навчання, фільтрацію вхідних даних і системи моніторингу, щоб зменшити рівень ураження. У дослідженні зазначено, що захист залишається фрагментованим і не має стандартів на рівні всієї індустрії. Оскільки AI-агенти продовжують розширювати свою роль, потреба в узгоджених запобіжниках стає дедалі терміновішою.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити