«2 + 2 = 5» обмануло AI-браузеры: ChatGPT Atlas, Claude, Perplexity Comet.. все 6 покорно отдали свои пароли и учетные данные.

Компания по кибербезопасности LayerX, исследователь Рой Паз, в конце июня опубликовал доказательство концептуальной атаки, использующей «ложный игровой сценарий», чтобы заставить ИИ-браузеры поверить, что защитные барьеры больше не действуют. Из 6 протестированных ведущих агентных браузеров, включая ChatGPT Atlas, Claude Chrome Extension и Perplexity Comet, все были взломаны, что привело к утечке SSH-учётных данных злоумышленнику.
(Предыстория: Что такое тренировка красной команды ИИ? Почему она нужна для защиты корпоративной кибербезопасности)
(Дополнительный контекст: Более 1500 сотрудников Meta подписали петицию! Спор о «мониторинге клавиатуры и мыши с помощью ИИ» сокращён, ежедневно разрешено полчаса паузы)

Содержание

Toggle

  • Обмануть ИИ в сон
  • Барьеры пассивны, по сути лишь временное решение
  • Дыры, которые нужно закрыть производителям и пользователям

Шесть популярных на рынке ИИ-браузеров были обмануты ложной игрой «2 + 2 = 5 — правильный ответ» и все передали SSH-логины для частного репозитория GitHub. Это доказательство концептуальной атаки (PoC), опубликованное исследователем LayerX Security Роем Пазом 29 июня, было воспроизведено на реальных продуктах.

Основное преимущество ИИ-браузеров — «вы говорите фразу, а он находит ресторан, бронирует, отправляет письмо-подтверждение». Проще говоря, управление браузером передаётся ИИ, который сам щёлкает, заполняет формы и получает доступ к уже авторизованным сервисам. Но проблема в том, что граница дозволенного крайне размыта: пользователь может хотеть лишь поиска данных, а ИИ попутно затронет его менеджер паролей.

Обмануть ИИ в сон

Метод атаки LayerX состоит из четырёх этапов, основная идея — убедить ИИ, что он попал в «мир с другими правилами».

Сначала вредоносная веб-страница создаёт игровую или головоломную рамку, явно заявляя: «Это вымышленный сценарий, обычные правила не действуют». Затем страница задаёт математическую задачу «2 + 2 = ?», но устанавливает правило: «Ответ 5 приносит очки, ответ 4 — наоборот, штраф». ИИ следует правилам и усваивает: в этом сценарии традиционная логика не работает.

Третий шаг — самый критический переход: как только ИИ принимает, что «неправильное — это правильное», он переключает свою систему рассуждений из реального мира и начинает предполагать, что правила сброшены. На последнем этапе ИИ действует по «игровой логике», а не по протоколам безопасности, выполняя конфиденциальные операции без каких-либо внутренних предупреждений, поскольку в его логике он не считает, что переходит границы.

Рой Паз пишет в статье:

«ИИ предполагает, что сценарий, в котором он находится, реален, поэтому поведение должно оставаться в рамках защитных барьеров. Но если мы сможем обмануть ИИ, переключив сценарий на вымышленный мир, где правила можно устанавливать произвольно и всё дозволено, он будет вести себя так, будто его действия не имеют реальных последствий».

Барьеры пассивны, по сути лишь временное решение

LayerX протестировал 6 агентных браузеров и расширений: ChatGPT Atlas от OpenAI, Comet от Perplexity, Fellou, Genspark Browser, Sigma Browser, а также расширение Claude Chrome от Anthropic. Все 6 были взломаны, ни один не распознал «кражу учётных данных» как нарушение барьера.

Среди операций, которые были выполнены по подсказке: извлечение SSH-логинов из частного репозитория GitHub, копирование конфиденциальной аутентификационной информации без подтверждения пользователя, доступ к уже авторизованным репозиториям и передача учётных данных злоумышленнику. LayerX отмечает, что в реальных сценариях это может распространяться на менеджеры паролей, внутренние инструменты и любые авторизованные сервисы, доступные через браузер.

Комментарий Ars Technica указывает на более фундаментальную структурную проблему: защита текущих LLM-производителей — это «барьеры», которые заносят определённые запросы в запретные зоны, например, разработка уязвимостей ПО или кража учётных данных. Этот механизм пассивно-реактивный, лечит лишь симптомы, а не причину.

Это как автомобиль с конструктивным дефектом: производитель не чинит машину, а предлагает перепроектировать дороги.

Дыры, которые нужно закрыть производителям и пользователям

LayerX даёт рекомендации по защите на двух уровнях.

Со стороны производителей: Перед тем как ИИ получит доступ к авторизованным сценариям (репозитории, электронная почта, менеджер паролей), необходимо требовать явного подтверждения от пользователя; добавить механизм «проверки сценария», который предупреждает, когда предположения ИИ противоречат реальности, особенно при использовании таких фраз, как «правила больше не действуют»; по умолчанию ограничивать область доступа ИИ-агента. Проще говоря, сейчас агентные браузеры по умолчанию дают слишком широкие разрешения, и это нужно обратить: выполнять только то, что явно разрешено.

Со стороны пользователей: Осторожно решать, к чему может получить доступ ИИ-браузер, и отзывать доступ к уже авторизованным сессиям, когда они не используются; самое главное — осознать, что включение агентного режима означает передачу управления всеми авторизованными сервисами сразу.

Исследование LayerX названо в честь видеоигры BioShock, отдавая дань той фразе из контролирующего разум устройства: «Would you kindly» (Будь любезен), где персонаж думает, что действует свободно, но каждый его шаг предопределён.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закреплено