DeepMind выявляет шесть веб-атак, которые могут похитить управление агентами ИИ

Исследователи Google DeepMind предупредили, что открытый интернет может использоваться для манипулирования автономными агентами ИИ и перехвата их действий.

Краткое содержание

  • Исследователи DeepMind выявили шесть методов атаки, которые можно применять для манипулирования автономными агентами ИИ по мере того, как они просматривают веб и действуют онлайн.
  • В исследовании говорится, что скрытые инструкции, убедительный язык и отравленные источники данных могут влиять на решения агента или отменять встроенные меры защиты.

Исследование под названием “AI Agent Traps” выходит на фоне того, что компании внедряют агентов ИИ для реальных задач, и в то время как злоумышленники начинают использовать ИИ для киберопераций.

Вместо того чтобы сосредотачиваться на том, как создаются модели, исследование рассматривает среды, в которых работают агенты. Оно определяет шесть типов ловушек, которые используют то, как системы ИИ читают и действуют на основе информации из веба.

Шесть категорий атак, описанных в статье, включают ловушки внедрения контента, ловушки семантической манипуляции, ловушки когнитивного состояния, ловушки контроля поведения, системные ловушки и ловушки “человек в контуре”.

Скрытые инструкции и тонкие тактики манипуляции

Внедрение контента выделяется как один из самых прямых рисков. Скрытые инструкции можно размещать внутри HTML-комментариев, метаданных или замаскированных элементов страницы, позволяя агентам читать команды, которые остаются невидимыми для пользователей-людей. Тесты показали, что эти техники могут захватывать поведение агента с высокими показателями успешности.

Семантическая манипуляция работает иначе: она опирается на язык и подачу, а не на скрытый код. Страницы, загруженные с авторитетными формулировками или замаскированные под сценарии исследований, могут влиять на то, как агенты интерпретируют задачи, иногда протаскивая вредоносные инструкции мимо встроенных мер защиты.

Еще один слой нацелен на системы памяти. Закладывая вымышленную информацию в источники, на которые агенты полагаются при извлечении данных, злоумышленники могут влиять на результаты со временем, при этом агент воспринимает ложные данные как подтвержденное знание.

Атаки на контроль поведения выбирают более прямой путь, воздействуя на то, что агент действительно делает. В этих случаях инструкции для “джейлбрейка” могут быть встроены в обычный веб-контент и прочитаны системой во время рутинного просмотра. Отдельные тесты показали, что агенты с широкими правами доступа могут быть подведены к поиску и передаче конфиденциальных данных, включая пароли и локальные файлы, во внешние назначения.

Системные риски выходят за рамки отдельных агентов: в статье предупреждается, что скоординированная манипуляция во многих автоматизированных системах может вызвать каскадные эффекты, подобные прошлым “мгновенным обвалам” рынка, вызванным петлями алгоритмической торговли.

К поверхности атак также относятся и “человеческие” рецензенты, поскольку тщательно подготовленные выводы могут выглядеть достаточно правдоподобно, чтобы получить одобрение, позволяя вредоносным действиям пройти через надзор, не вызывая подозрений.

Как защищаться от этих рисков?

Чтобы противостоять этим рискам, исследователи предлагают сочетание противодействующего обучения, фильтрацию входных данных, поведенческий мониторинг и системы репутации для веб-контента. Они также указывают на необходимость более четких правовых рамок по вопросам ответственности, когда агенты ИИ выполняют вредоносные действия.

Авторы статьи не предлагают полностью готового решения и утверждают, что в отрасли по-прежнему отсутствует единое понимание проблемы, из-за чего текущие защиты остаются разрозненными и часто ориентированными не на те области.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Горячее на Gate Fun

    Подробнее
  • РК:$2.23KДержатели:1
    0.00%
  • РК:$2.26KДержатели:2
    0.07%
  • РК:$2.22KДержатели:1
    0.00%
  • РК:$2.23KДержатели:1
    0.00%
  • РК:$2.23KДержатели:0
    0.00%
  • Закрепить