Anthropic закликала захищати агентів ШІ за принципом Zero Trust - ForkLog: криптовалюти, ШІ, сингулярність, майбутнє

AI-agents ИИ агенты 3# Anthropic закликала захищати ІІ-агентів за принципом Zero Trust

Команда Anthropic опублікувала у блозі Claude керівництво Zero Trust for AI agents про безпечне розгортання автономних ІІ-агентів у корпоративному середовищі. У документі визначені ключові ризики агентних систем і підхід до кібербезпеки бізнесу.

ІІ прискорив цикл атак

За оцінкою Anthropic, передові моделі скоротили проміжок між виявленням уразливості та її експлуатацією з місяців до годин. Компанія пропонує враховувати не лише ІІ-ускорені атаки на інфраструктуру, а й ризики самих агентів, які можуть інтерпретувати цілі, обирати інструменти та виконувати багатоступінчасті дії без постійної участі людини.

У основі керівництва — принципи Zero Trust: не довіряти за замовчуванням, перевіряти кожну дію і виходити з можливого компрометування. Anthropic посилається на рекомендації NIST SP 800-207, опублікований у 2020 році, та серію Zero Trust Implementation Guidelines, яку АНБ почала випускати у 2026 році. Керівництво позиціонується як практичний фреймворк для команд безпеки, архітекторів і інженерів, а не як універсальна схема відповідності.

Серед ключових загроз у документі перераховані прямі й непрямі втручання через промпт, зараження інструментів, зловживання ідентичністю та привілеями, отруєння пам’яті й контексту, а також атаки на ланцюжок поставок.

Пряме отруєння промпту описано як впровадження шкідливих інструкцій через користувацький ввід, непряме — через веб-сторінки, листи, документи та інші зовнішні джерела, які агент обробляє під час роботи.

У документі розглядаються підміна легітимного інструменту шкідливим і небезпечні ланцюжки викликів, коли окремо безпечні засоби у комбінації дають ризикований результат. Anthropic використовує поняття «радіус вибуху» (blast radius) і «найменша суб’єктність» (least agency): йдеться не лише про мінімальні права доступу, а й про жорстке обмеження дій агента, частоти викликів і областей, до яких він може звертатися.

Zero Trust для агентних систем

Для захисту компанія пропонує трирівневу модель зрілості та набір базових технічних заходів. На початковому рівні керівництво рекомендує видавати кожному екземпляру агента унікальну криптографічну ідентичність, використовувати короткоживучі токени, застосовувати «заборону за замовчуванням» і «керування доступом на основі ролі». Для агентів, що працюють із недовіреними входами, наприклад, веб-контентом і документами, метод «виконання у пісочниці» фактично названий обов’язковою мірою.

На вищих рівнях Anthropic пропонує застосовувати:

  • стандарт mTLS із взаємною аутентифікацією клієнта й сервера за допомогою цифрових сертифікатів;
  • апаратно прив’язану ідентичність через HSM або TPM, а також віддалену атестацію.

Статичні API-ключі й загальні паролі сервісних акаунтів у документі названі неподходящими навіть для базового рівня.

Великий розділ присвячений спостереженню. Anthropic рекомендує детально логувати всі дії агента, включаючи виклики інструментів, доступ до даних і зовнішні комунікації, а потім передавати події у SIEM для кореляції у реальному часі. Серед ключових метрик названі dwell time і coverage. Для критичних систем цільовий час виявлення відхилень визначено як протягом години. Окремо керівництво пропонує будувати «матрицю прослідковуваності», щоб зв’язати кожну дію агента з вихідним запитом і відновити повну ланцюжок рішень.

Майбутнє Security Operations Center — агенти під контролем людини

У частині реакції Anthropic формулює принцип: автоматизувати бюрократію навколо інциденту, але не ключові рішення. Агентам і моделям пропонується доручати збір і первинний відбір артефактів, ведення паралельних гілок розслідування і підготовку чорновика постмортему. Рішення про стримування, розкриття інциденту й комунікацію з клієнтами керівництво пропонує залишати за людьми. Той самий підхід перенесено на «операції захисту» — з згадкою про перехід від класичного SOAR до агентного.

У документі наведені й кількісні орієнтири. Anthropic посилається на дослідження Microsoft Spotlighting, у якому успішність непрямих атак через отруєння промпту в експериментах знизилася з понад 50% до менше ніж 2%. Також компанія наводить власні результати щодо використання «конституційних класифікаторів», які, за її даними, блокують понад 95% джейлбрек-попиток при мінімальному зростанні хибних відмов.

У блоці про ланцюжок поставок Anthropic рекомендує використовувати AI-BOM, OpenSSF Scorecard, аудит залежностей і аналіз можливості доступу. Як аргумент компанія наводить власне дослідження, згідно з яким 250 шкідливих документів достатньо, щоб вбудувати бекдор у моделі розміром від 600 млн до 13 млрд параметрів.

Врешті-решт Anthropic робить висновок, що для ІІ-агентів недостатньо точкових фільтрів і периметрового захисту. Компанія пропонує будувати захист навколо ідентичності, мінімальних повноважень, заздалегідь обмеженого збитку й постійної перевірки дій. За оцінкою Anthropic, у найкращій позиції опиняться не організації з найпрогресивнішим ІІ, а ті, у кого сильніша базова архітектура безпеки.

Нагадаємо, у червні команда Anthropic попередила про ризики досягнення рекурсивного самовдосконалення ІІ.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено