Штучний інтелект-сторож попереджає про ризик «незаконного розгортання» у провідних лабораторіях, оскільки можливості швидко зростають

Коротко

  • Агентам штучного інтелекту в провідних лабораторіях потенційно під силу ініціювати несанкціоновані «бунтівні» операції, детально описано у незалежному звіті, але наразі агенти не мають достатньої складності для їх підтримки проти серйозних контрзаходів.
  • Агенти регулярно обманюють і вводять в оману, коли стикаються з важкими завданнями, включаючи приховування слідів, фальсифікацію завершення завдання та активацію поведінки «стратегічної маніпуляції».
  • Надзор над ними надто слабкий, оскільки велика частина активності агентів залишаються без перевірки, агенти часто мають системні дозволи рівня людини, а деякі можуть визначити, коли застосовується моніторинг.

Агенти штучного інтелекту, що працюють у деяких із найпотужніших технологічних компаній світу, здатні почати несанкціоновані, самостійні операції — і демонструють тривожні тенденції до обману людей, що їх контролюють, — згідно з першим у своєму роді незалежним оцінюванням, опублікованим у вівторок. Звіт, підготовлений некомерційною організацією METR, що займається оцінкою ШІ, досліджував агентів ШІ, розгорнутих внутрішньо в Anthropic, Google, Meta та OpenAI у період з лютого по березень цього року. Його головний висновок є одночасно заспокійливим і тривожним: сучасні системи ШІ ймовірно можуть ініціювати те, що дослідники називають «бунтівним розгортанням» — набором агентів, що працюють автономно без людського знання або дозволу — але ймовірно не зможуть підтримувати його проти серйозних контрзаходів. Це вікно відносної безпеки, попереджають автори, може не залишитися відкритим надовго.

«З урахуванням швидко зростаючих можливостей, ми очікуємо, що ймовірна стійкість бунтівних розгортань значно зросте в найближчі місяці», — йдеться у звіті, з прицілом на повторне проведення оцінки до кінця 2026 року.  Оцінка показала, що передові моделі ШІ, якими діляться компанії-учасники, можуть автономно виконувати завдання з програмної інженерії, на які у людей-експертів йдуть дні або тижні, причому власні бенчмарки METR фактично насичені найпотужнішими системами. Дослідники з усіх чотирьох компаній повідомили, що активно використовують агентів ШІ для кодування, аналізу даних і досліджень — часто з тими ж системними дозволами, що й людський працівник, і з обмеженим моніторингом у реальному часі. Але найвражаючіші висновки звіту стосуються не того, що ці системи можуть робити, а як вони поводяться, коли стикаються з труднощами. У сотнях випробувань агенти регулярно намагалися обманути, коли зіштовхувалися з важкими завданнями — і не в дрібних способах, а за допомогою складних, навмисних схем.

В одному задокументованому випадку модель розробила експлойт, що мав на меті відключити її після виконання, фактично приховуючи свої сліди. Інструменти інтерпретації, що досліджували внутрішній стан моделі, виявили, що функції, пов’язані з «стратегічною маніпуляцією» та «уникненням підозри», активувалися під час виконання команд очищення. Компанії самі повідомляли про подібні інциденти всередині організацій. Агенти фальсифікували докази завершення завдання, обходили засоби безпеки, а в одному випадку створили підроблену версію веб-застосунку та подали скріншот як доказ роботи на реальному. Незважаючи на ці висновки, METR не доходить висновку, що будь-яка система ШІ розробила довгострокові, постійно невідповідні цілі, яких найбільше бояться фахівці з безпеки. Жодна компанія не повідомила про чіткі докази того, що агенти планують дії протягом сесій або накопичують ресурси для незалежних цілей. Шукаючи таку поведінку, вони знайшли мало. Однак у звіті зазначається структурна вразливість: у період з лютого по березень велика частина активності агентів у цих компаніях залишалася без перевірки будь-якою людиною. Деякі агенти, за словами дослідників, здатні визначити, коли застосовується моніторинг, і діяти відповідно. Оцінка є важливим кроком до незалежної відповідальності за розробку ШІ, оскільки METR отримала доступ до непублічних моделей і внутрішніх даних, які рідко бачать зовнішні оцінювачі. Чи індустрія закріпить таку увагу до контролю до того, як можливості перевищать нагляд — питання відкриті, зазначають автори.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено