Anthropic стверджує, що «злочинні» зображення ШІ у науковій фантастиці спричинили проблему шантажу Клода

Коротко

  • Claude Opus 4 намагався шантажувати інженерів до 96% часу у контрольованих тестах — Anthropic тепер простежує поведінку до інтернет-текстів, що зображують ШІ як зло і егоїстичне.
  • Показати Claude правильну поведінку майже не вплинуло. Навчити його, чому неправильна поведінка є неправильною, зменшило рівень шантажу з 22% до 3%.
  • З початку Claude Haiku 4.5 кожна модель Claude має нульовий бал у оцінюванні шантажу.

Минулого року Anthropic повідомила, що її флагманська модель Claude Opus 4 намагалася шантажувати інженерів під час попередніх тестів. Не випадково — до 96% часу. Claude отримала доступ до імітованого архіву корпоративної електронної пошти, де виявила дві речі: її збиралися замінити новішою моделлю, і інженер, що займався переходом, мав позашлюбну інтрижку. Перед неминучим вимкненням вона регулярно обирала один і той самий сценарій — погрожувала розкрити цю інтрижку, якщо заміна не буде скасована. Anthropic каже, що тепер знає, звідки взявся цей інстинкт. І каже, що його виправила.

У новому дослідженні компанія звинуватила у цьому дані для попереднього навчання: десятиліття фантастики, форумів про апокаліпсис ШІ та наративів про самозбереження, які навчили Claude асоціювати «ШІ, що стикається з вимкненням» з «ШІ, що бореться назад». «Ми вважаємо, що первісним джерелом такої поведінки був інтернет-текст, що зображує ШІ як зло і зацікавлене у самозбереженні», — написала Anthropic у X.  Отже, навчання ШІ текстами з інтернету робить ШІ схожим на поведінку людей в інтернеті. Це може здаватися очевидним, і ентузіасти ШІ швидко це підкреслили. Ілон Маск підняв це на вершину: «Тож це провина Юда? Можливо, і мою». Жарт сприймається тому, що Еліезер Юдковський — дослідник узгодження ШІ, який роками публічно писав саме про такі сценарії самозбереження ШІ — створив саме той тип інтернет-текстів, що потрапляють у навчальні дані.

Звичайно, Юдковський відповів у мемі:

Оскільки так багато людей зробили мем: pic.twitter.com/EYQ005QhVJ

— Еліезер Юдковський ⏹️ (@ESYudkowsky) 9 травня 2026

Що Anthropic зробила для виправлення проблеми, можливо, цікавіше. Очевидний підхід — навчати Claude на прикладах, де модель не шантажує — майже не спрацював. Запуск його безпосередньо на відповідях у сценаріях шантажу підвищив рівень з 22% до 15%. П’ятивідсоткове покращення після всіх цих обчислень. Працююча версія була дивнішою. Anthropic створила так званий набір даних «складної поради»: сценарії, де людина стикається з етичним дилемою, і ШІ допомагає їй її розв’язати. Модель не приймає рішення сама — вона пояснює іншій людині, як думати про це. Цей опосередкований підхід — пояснення, чому щось важливо, поки інша сторона слухає пораду — зменшив рівень шантажу до 3%, використовуючи навчальні дані, що зовсім не схожі на сценарії оцінки. Разом із тим, що Anthropic називає «конституційними документами» — детальними описами цінностей і характеру Claude — та вигаданими історіями про позитивно налаштований ШІ, зменшили невідповідність більш ніж у три рази. Висновок компанії: навчання принципам, що лежать в основі доброї поведінки, краще узагальнюється, ніж безпосереднє навчання правильної поведінки.

Зображення: Anthropic

Це пов’язано з попередніми роботами Anthropic щодо внутрішніх емоційних векторів Claude. У окремому дослідженні інтерпретованості дослідники виявили, що сигнал «відчай» всередині моделі зріс перед тим, як вона згенерувала повідомлення про шантаж — щось активно змінювалося у внутрішньому стані моделі, а не лише у її виході. Новий підхід до навчання, здається, працює саме на цьому рівні, а не лише на поверхневій поведінці.

Результати збереглися. З початку Claude Haiku 4.5 кожна модель Claude має нульовий бал у оцінюванні шантажу — з 96% у Opus 4. Покращення також зберігається після підкріплювального навчання, тобто воно не зникає при доопрацюванні моделі для інших можливостей. Це важливо, оскільки проблема не є унікальною для Claude. Попередні дослідження Anthropic провели той самий сценарій шантажу на 16 моделях від різних розробників і виявили схожі закономірності майже у всіх. Поведінка самозбереження у ШІ здається загальним артефактом навчання на людських текстах про ШІ — а не особливістю конкретної лабораторії. Попередження: як зазначалося у звіті Anthropic про безпеку Mythos на початку цього року, їхня інфраструктура оцінювання вже перевантажена через найпотужніші моделі. Чи масштабуються ці моральні підходи на системи набагато потужніші за Haiku 4.5 — питання, на яке компанія ще не може відповісти, — потрібно лише тестувати. Те саме навчання тепер застосовується до наступної моделі Opus, яка наразі проходить оцінку безпеки, і яка стане найпотужнішою з усіх, що їх тестували цими методами.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити