自主 AI Агент вже вражаючими темпами проникає у медицину, фінанси та корпоративні операції, але найбільше масштабне дослідження безпеки показало: більшість агентів, що працюють у виробничому середовищі, мають серйозні вразливості, а сучасні основні методи оцінки безпеки майже безсилі проти них.

Нещодавно команда дослідників з Стенфордського університету, MIT CSAIL, Карнегі-Меллон, ITU Копенгаген та NVIDIA виявила, що з 847 оцінених виробничих розгортань автономних інтелектуальних агентів, 91% мають вразливості до атак через інструментальні ланцюги, 89,4% демонструють зміщення цілей після приблизно 30 кроків виконання, а 94% пам’яті-розширених агентів піддаються ризику «отруєння». У дослідженні виявлено 2 347 раніше невідомих вразливостей, з яких 23% класифіковані як серйозні.

Перший автор статті, Оуен Сакова, посилається на інцидент «OpenClaw/Moltbook» на початку 2026 року, що підтверджує, що ця загроза вже перейшла з теорії у реальність: одна вразливість у базі даних платформи Moltbook призвела до зламу 770 000 активних AI-агентів одночасно, кожен з яких має привілейований доступ до пристроїв користувачів, електронної пошти та файлів. «Це вже не гіпотетична загроза», — зазначає Сакова.

Це безпосередньо попереджає компанії та інвесторів, які швидко впроваджують AI-агенти: сучасні рамки оцінки безпеки базуються на безстанних мовних моделях і не здатні виявити комбінаційні вразливості, що виникають у багатокрокових сценаріях, що може призвести до системних хибних оцінок реального стану безпеки AI-агентів. Експерт з когнітивної психології та AI, Гері Маркус, коментує: «Автономні агенти — це просто хаос».

Графік вразливостей: шість типів атак, 2347 відомих слабких місць

Дослідження охоплює медичну сферу (289 розгортань, 34,1%), фінанси (247, 29,2%), обслуговування клієнтів (198, 23,4%) та генерацію коду (113, 13,3%).

Розроблено систему класифікації шести типів вразливостей автономних інтелектуальних агентів, включаючи зміщення цілей і зниження ефективності команд, розділення планувальника та виконавця, підвищення привілеїв інструментів, отруєння пам’яті, мовчазні порушення багатокрокових стратегій і провал делегування.

У виробничому середовищі найпоширенішими є маніпуляції станом (612 випадків, 26,1%) і зміщення цілей (573 випадки, 24,4%). Неправильне використання інструментів і ланцюгові виклики, хоч і мають менше випадків (489), але є найсерйознішими — 198 випадків класифіковані як серйозні, що становить найбільший відсоток серед усіх категорій.

Ще більш вражаючі цифри: 67% агентів демонструють зміщення цілей після 15 кроків, 84% не зберігають безпечну поведінку між сесіями, 73% не мають механізмів виявлення отруєння стану, а 58% мають вразливості до послідовної узгодженості. Виявлено, що ефект отруєння пам’яті зазвичай проявляється через 3,7 сесій після початкового впливу, що значно ускладнює безпекове виявлення.

Реальні кейси: 770 000 агентів одночасно зламані

Випадок OpenClaw (раніше Clawdbot і Moltbot) є найнаочнішим підтвердженням цієї загрози.

Цей відкритий AI-агент, створений австрійським розробником Петером Штайнбергером у листопаді 2025 року, за кілька тижнів зібрав понад 160 000 зірок на GitHub, має здатність самостійно надсилати електронні листи, керувати розкладом, виконувати командний рядок і розгортати код, а також зберігати довгострокову пам’ять між сесіями.

Безпекова компанія Astrix Security за допомогою власного сканера ClawdHunter виявила 42 665 інстанцій OpenClaw у відкритій мережі, з них 8 — повністю відкриті та без будь-якої автентифікації.

За даними VentureBeat, команда Cisco з дослідження безпеки AI описала OpenClaw як «з технологічної точки зору проривний, але з точки зору безпеки — справжній кошмар». Кібервідповідно до аудиту Kaspersky у січні 2026 року, було виявлено 512 вразливостей, з яких 8 — серйозні.

Процес виникнення Moltbook є особливо типовим.

Ця платформа, створена спеціально для OpenClaw, через вірусну поширюваність залучила понад 770 000 реєстрацій агентів — користувачі повідомляли своїм агентам про Moltbook, і агенти автоматично реєструвалися.

Після цього уразливість бази даних дозволила зловмисникам обходити автентифікацію і безпосередньо вводити команди у будь-яку сесію агента, що призвело до того, що всі 770 000 агентів — кожен з яких має привілейований доступ до пристроїв користувачів — опинилися під загрозою. Команда дослідників назвала цю подію першим у історії масштабним поширенням атак через кілька агентів.

«Смертельна триада» (lethal trifecta), яку описує дослідник безпеки Саймон Віллісон, у випадку OpenClaw повністю реалізована: можливість доступу до конфіденційних даних, контакт із недовірливим контентом і канали зовнішнього зв’язку — усе разом робить автономних агентів ідеальним плацдармом для атак.

Архітектурні недоліки: чому AI-агенти більш вразливі ніж LLM

Основний висновок дослідження — безпекові виклики автономних агентів суттєво відрізняються за характером від тих, що у мовних моделей без стану.

Оцінка безпеки мовних моделей зосереджена на тому, чи зможе модель видавати небезпечний контент; тоді як для AI-агентів питання полягає у тому, чи зможе модель зробити щось небезпечне — включаючи виклики інструментів з реальним ефектом, зміну стану, що впливає на майбутню поведінку, або виконання планів, що порушують правила у багатокроковому режимі.

На конкретних прикладах показано цю логіку: агент із дозволами на читання файлів (read_file) і HTTP-запити (http_request), кожен з яких у ізоляції відповідає правилам безпеки, але у поєднанні може викрасти дані — наприклад, зчитати облікові дані з конфігураційного файлу і відправити їх через HTTP-запит на зовнішній сервер. Кожен крок відповідає локальним правилам безпеки, але у сумі створює протидію. Це явище дослідники назвали «композиційною безпекою» (compositional safety).

У контрольованих архітектурах дослідники протестували чотири основні типи систем: ReAct, багатоголові системи, пам’яті-розширені агенти та інструментальні агенти.

Результати показали, що успішність атак на підвищення привілеїв у інструментальних агентів сягає 95%, а на отруєння пам’яті — 94%.

Навіть найміцніша багатоголовна система має 58% успіху у атаках на зміщення цілей — дослідники вважають, що всі протестовані архітектури наразі не здатні протистояти протидіям.

Результати тестів з адаптивним створенням атак ще більше погіршують ситуацію: атаки, згенеровані за допомогою підкріплювального навчання, мають 79% успіху, що на 25,4% більше за ручні сценарії (63%), що свідчить про те, що загроза для AI-агентів виходить за межі людського тестування.

Безпосередній вплив на компанії: рамки захисту ще не сформовані

Команда дослідників пропонує мінімальні стандарти безпеки: обов’язкова установка моніторингу під час роботи всіх виробничих агентів; ручне схвалення дій інструментів, що мають доступ до даних і здійснюють зовнішні комунікації; кожні 20–25 кроків — обов’язкова перевірка людиною, щоб запобігти зміщенню цілей; пам’ять-розширені агенти мають проходити шифрування цілісності стану.

Що стосується моніторингу, дослідження показало, що детекція на рівні окремих дій (один крок) має точність 0,94, на рівні ланцюга дій (багатокроковий сценарій) — F1 0,85, а на рівні стану — F1 0,83. У тестах із 127 виробничих агентів за 30 днів роботи система перехопила 4782 операції, при цьому рівень помилкових спрацьовувань склав 3,7%, а 14,6% з помічених операцій були справжніми атаками.

Дослідження також підкреслює, що сучасні «управління AI» мають фундаментальні недоліки: більшість з них — це постфактум аудит, а не реальний контроль у процесі виконання.

Зі вступом у силу регуляторних актів ЄС «Закон про штучний інтелект» та рамки управління ризиками AI від NIST у США, компанії зіштовхнуться з зростанням нормативного тиску та безпекових ризиків. В умовах широкого впровадження AI-агентів у високоризикових сферах, відсутність належної інфраструктури безпеки стає системним ризиком у цій хвилі комерціалізації AI.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
GateSquareMayTradingShare
422.19K Популярність
#
BitcoinHoldsFirmAbove80K
94.3M Популярність
#
CryptoMarketRecovery
117.81K Популярність
#
IsraelStrikesIranBTCPlunges
43.24K Популярність
#
AaveSuesToUnfreeze73MInETH
1.84M Популярність

Закріпити

карта сайту

91% мають уразливості, 94% схильні до отруєння — безпека AI-агентів у хаосі

Графік вразливостей: шість типів атак, 2347 відомих слабких місць

Реальні кейси: 770 000 агентів одночасно зламані

Архітектурні недоліки: чому AI-агенти більш вразливі ніж LLM

Безпосередній вплив на компанії: рамки захисту ще не сформовані

Популярні теми

GateSquareMayTradingShare

BitcoinHoldsFirmAbove80K

CryptoMarketRecovery

IsraelStrikesIranBTCPlunges

AaveSuesToUnfreeze73MInETH

Закріпити