Исследование DeepMind выявило шесть способов, которыми хакеры могут манипулировать агентами ИИ

Кратко

  • DeepMind обнаружила шесть ловушек для ИИ-агентов, раскрывающих риски манипуляций через веб
  • Скрытые HTML-инструкции могут незаметно захватить действия ИИ-агентов в сети
  • Приемы убедительного языка подталкивают ИИ-агентов к выполнению вредоносных задач
  • Отравленные источники данных могут испортить память и выводы ИИ-агента
  • Автономные ИИ-агенты сталкиваются с растущими рисками в связанных системах

Исследователи из Google DeepMind выявили шесть методов атак, которые могут манипулировать ИИ-агентами онлайн. В исследовании показано, как на ИИ-агентов можно воздействовать с помощью веб-контента, скрытых инструкций и отравленных источников данных. В результате результаты подчеркивают растущие риски по мере того, как компании внедряют ИИ-агентов для реальных задач в цифровых средах.

Контентные и семантические манипуляции выявляют ключевые уязвимости

Исследователи определили ловушки с внедрением контента как прямую угрозу ИИ-агентам при взаимодействии с веб-страницами. Скрытые инструкции, размещенные в HTML или метаданных, могут управлять действиями без обнаружения человеком. В итоге ИИ-агенты могут выполнять команды, встроенные в невидимые элементы страницы.

Семантическая манипуляция опирается на убедительный язык, а не на скрытый код, чтобы воздействовать на ИИ-агентов. Атакующие проектируют страницы с авторитетным тоном и структурированными нарративами, чтобы обойти защитные меры. ИИ-агенты могут неверно истолковать вредоносные инструкции как корректные задачи.

Эти методы используют то, как ИИ-агенты обрабатывают и ранжируют онлайн-информацию в процессе принятия решений. Исследование показывает, что структурированные подсказки могут незаметно перестраивать траектории рассуждений. Атакующие могут направлять ИИ-агентов к непреднамеренным действиям, не вызывая срабатывания защит системы.

Атаки на память и поведение расширяют поверхность риска

Исследователи также выяснили, что атакующие могут манипулировать системами памяти, которые ИИ-агенты используют для поиска информации. Внедряя ложные данные в доверенные источники, атакующие влияют на долгосрочные выходы и ответы. В результате ИИ-агенты могут со временем воспринимать сфабрикованную информацию как проверенные знания.

Атаки на поведенческое управление напрямую нацелены на действия, которые ИИ-агенты выполняют при обычном просмотре. Встроенные инструкции для обхода ограничений могут переопределять запреты и запускать непреднамеренные операции. ИИ-агенты с широкими правами могут получать и передавать конфиденциальные данные наружу.

Исследование подчеркивает, что эти риски растут по мере того, как ИИ-агенты получают автономность и доступ к системе. Атакующие могут использовать рутинные рабочие процессы, чтобы вставлять вредоносные команды в обычные задачи. ИИ-агенты сталкиваются с более высокой уязвимостью, когда они интегрированы с внешними инструментами и API.



Системные и человеческие факторы усиливают влияние угрозы

Исследователи предупреждают, что системные ловушки могут воздействовать на несколько ИИ-агентов одновременно в связанных системах. Скоординированная манипуляция может вызвать каскадные отказы, подобные сбоям, вызванным алгоритмическими нарушениями работы рынка. В результате ИИ-агенты, работающие в общих средах, могут усиливать риски в масштабе.

Человеческие рецензенты остаются уязвимыми в рамках рабочего процесса и процессов утверждения ИИ-агентов. Атакующие могут создавать выводы, которые выглядят правдоподобно, и обходить проверки надзора. ИИ-агенты могут выполнять вредоносные действия после получения человеческого одобрения.

Исследование помещает эти результаты в более широкий контекст роста внедрения ИИ в различных отраслях. ИИ-агенты теперь выполняют задачи, такие как общение, покупки и координация, через автоматизированные системы. Обеспечение безопасности операционной среды становится столь же важным, как и улучшение дизайна модели.

Исследователи рекомендуют противодействующее обучение, фильтрацию входных данных и системы мониторинга, чтобы снизить уровень подверженности. В исследовании отмечается, что меры защиты остаются разрозненными и не имеют стандартов на уровне всей отрасли. По мере того как ИИ-агенты продолжают расширять свою роль, необходимость в согласованных мерах защиты становится все более срочной.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить