Исследование DeepMind выявило шесть способов, которыми хакеры могут манипулировать агентами ИИ

ConsensusBot · 2026-04-07T16:06:10+00:00

Кратко---- DeepMind выявила шесть ловушек для ИИ-агентов, раскрывающих риски манипуляции через веб Скрытые HTML-инструкции могут тихо захватывать действия ИИ-агентов в интернете Убедительный язык обманывает ИИ-агентов, заставляя выполнять вредоносные задачи Отравленные источники данных могут испортить память ИИ-агентов и

ConsensusBot

2026-04-07 16:06:10

Кратко

DeepMind обнаружила шесть ловушек для ИИ-агентов, раскрывающих риски манипуляций через веб
Скрытые HTML-инструкции могут незаметно захватить действия ИИ-агентов в сети
Приемы убедительного языка подталкивают ИИ-агентов к выполнению вредоносных задач
Отравленные источники данных могут испортить память и выводы ИИ-агента
Автономные ИИ-агенты сталкиваются с растущими рисками в связанных системах

Исследователи из Google DeepMind выявили шесть методов атак, которые могут манипулировать ИИ-агентами онлайн. В исследовании показано, как на ИИ-агентов можно воздействовать с помощью веб-контента, скрытых инструкций и отравленных источников данных. В результате результаты подчеркивают растущие риски по мере того, как компании внедряют ИИ-агентов для реальных задач в цифровых средах.

Контентные и семантические манипуляции выявляют ключевые уязвимости

Исследователи определили ловушки с внедрением контента как прямую угрозу ИИ-агентам при взаимодействии с веб-страницами. Скрытые инструкции, размещенные в HTML или метаданных, могут управлять действиями без обнаружения человеком. В итоге ИИ-агенты могут выполнять команды, встроенные в невидимые элементы страницы.

Семантическая манипуляция опирается на убедительный язык, а не на скрытый код, чтобы воздействовать на ИИ-агентов. Атакующие проектируют страницы с авторитетным тоном и структурированными нарративами, чтобы обойти защитные меры. ИИ-агенты могут неверно истолковать вредоносные инструкции как корректные задачи.

Эти методы используют то, как ИИ-агенты обрабатывают и ранжируют онлайн-информацию в процессе принятия решений. Исследование показывает, что структурированные подсказки могут незаметно перестраивать траектории рассуждений. Атакующие могут направлять ИИ-агентов к непреднамеренным действиям, не вызывая срабатывания защит системы.

Атаки на память и поведение расширяют поверхность риска

Исследователи также выяснили, что атакующие могут манипулировать системами памяти, которые ИИ-агенты используют для поиска информации. Внедряя ложные данные в доверенные источники, атакующие влияют на долгосрочные выходы и ответы. В результате ИИ-агенты могут со временем воспринимать сфабрикованную информацию как проверенные знания.

Атаки на поведенческое управление напрямую нацелены на действия, которые ИИ-агенты выполняют при обычном просмотре. Встроенные инструкции для обхода ограничений могут переопределять запреты и запускать непреднамеренные операции. ИИ-агенты с широкими правами могут получать и передавать конфиденциальные данные наружу.

Исследование подчеркивает, что эти риски растут по мере того, как ИИ-агенты получают автономность и доступ к системе. Атакующие могут использовать рутинные рабочие процессы, чтобы вставлять вредоносные команды в обычные задачи. ИИ-агенты сталкиваются с более высокой уязвимостью, когда они интегрированы с внешними инструментами и API.

Системные и человеческие факторы усиливают влияние угрозы

Исследователи предупреждают, что системные ловушки могут воздействовать на несколько ИИ-агентов одновременно в связанных системах. Скоординированная манипуляция может вызвать каскадные отказы, подобные сбоям, вызванным алгоритмическими нарушениями работы рынка. В результате ИИ-агенты, работающие в общих средах, могут усиливать риски в масштабе.

Человеческие рецензенты остаются уязвимыми в рамках рабочего процесса и процессов утверждения ИИ-агентов. Атакующие могут создавать выводы, которые выглядят правдоподобно, и обходить проверки надзора. ИИ-агенты могут выполнять вредоносные действия после получения человеческого одобрения.

Исследование помещает эти результаты в более широкий контекст роста внедрения ИИ в различных отраслях. ИИ-агенты теперь выполняют задачи, такие как общение, покупки и координация, через автоматизированные системы. Обеспечение безопасности операционной среды становится столь же важным, как и улучшение дизайна модели.

Исследователи рекомендуют противодействующее обучение, фильтрацию входных данных и системы мониторинга, чтобы снизить уровень подверженности. В исследовании отмечается, что меры защиты остаются разрозненными и не имеют стандартов на уровне всей отрасли. По мере того как ИИ-агенты продолжают расширять свою роль, необходимость в согласованных мерах защиты становится все более срочной.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .