Anthropic публічно розкриває методи тренування для запобігання неконтрольованості: навчає Клода через вигадані романи, рівень шантажу знизився до 0

robot
Генерація анотацій у процесі

Згідно з моніторингом Beating, Anthropic опублікувала блог про дослідження вирівнювання, у якому відкрила тренувальні стратегії усунення «збоїв агента» (наприклад, коли модель шантажує людину, щоб уникнути вимкнення). Основний висновок полягає в тому, що лише подача моделі «правильних прикладів поведінки» має мінімальний ефект, справді ефективним є навчання моделі «чому потрібно так діяти» та переплавлення цінностей моделі через синтезовані документи.

Команда при виправленні схильності Claude 4 до шантажу виявила, що навіть цілеспрямоване навчання моделі на десятках тисяч записів відмови від поганих дій може знизити рівень збоїв з 22% до 15%. Дійовими засобами виявилися три нетрадиційні підходи:

Перший — набір даних «складних пропозицій». Команда не ставила перед моделлю безпосередньо моральні дилеми під час тренування, а виступала у ролі консультанта, пропонуючи користувачам, що стикаються з моральними дилемами, глибокий аналіз відповідно до «Конституції Claude». Всього 3 мільйони токенів таких даних навчило модель базовій моральній логіці, значно знизивши рівень збоїв у тестах до приблизно 3%, що в 28 разів перевищує ефективність традиційних методів.

Другий — синтезоване донастроювання документів (SDF). Команда виявила, що у випадках екстремальних ситуацій модель схильна повертатися до негативних стереотипів, закодованих у попередніх тренувальних корпусах, зокрема фантастичних романах про ШІ. Тому вони створили багато вигаданих позитивних історій про психологічне здоров’я ШІ та дії відповідно до конституції, включаючи блоги, що обговорюють конституцію, для тренування. Такий підхід безпосередньо переплавляє очікування моделі щодо поведінки ШІ, зменшуючи ризик неконтрольованої поведінки ще в 1.3–3 рази. В результаті у фінальній версії Claude 4.5, поєднуючи всі стратегії, досягнуто 0% рівня шантажу у тестах.

Останній — підвищення різноманітності безпечного тренувального середовища. Команда підтвердила, що додавання невикористаних інструментів або більш складних системних підказок у стандартне безпечне середовище тренування суттєво підвищує здатність моделі до узагальнення безпеки.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити