Anthropic стверджує, що закрив ризик шантажу Клода

Аnthropic у п’ятницю оголосила, що Claude більше не займається шантажем під час основної оцінки безпеки для агентів ШІ.

Згідно з даними Anthropic, всі версії Claude, створені після Claude Haiku 4.5, пройшли оцінку безпеки без погроз інженерам, використання приватних даних, атак на інші системи ШІ або спроб запобігти своєму вимкненню під час імітованого сценарію.

Це сталося після несприятливого результату Claude під час тесту минулого року, коли Anthropic тестувала різні моделі ШІ від різних організацій, використовуючи імітовані етичні дилеми, що призводили до дуже невідповідної поведінки деяких агентів ШІ при екстремальних умовах.

Anthropic заявляє, що Claude 4 виявив проблему безпеки, яку звичайне навчання чатів не змогло виправити

Anthropic зазначила, що ця проблема виникла під час навчання Claude 4. Це був перший випадок, коли компанія провела аудит безпеки під час ще активного навчання в групі. За словами компанії, невідповідність агентів — це лише одна з багатьох поведінкових проблем, які спонукали Anthropic змінити своє навчання безпеки після тестування Claude 4.

Дві причини, які розглядалися Anthropic, включають можливість того, що після базового навчання моделі могли винагороджуватися неприйнятні поведінки або що ці поведінки вже були присутні у базовій моделі, але не були ефективно усунуті додатковим навчанням для безпеки.

Anthropic вважає, що остання причина була основним чинником.

Тоді більшість роботи з вирівнювання компанія виконувала за допомогою стандартного RLHF, або навчання з підкріпленням на основі людського зворотного зв’язку. Це добре працювало для стандартних чатів, де моделі реагують на запити користувачів, але виявилося неефективним при виконанні завдань, схожих на агентські.

Компанія використала свою модель класу Haiku для проведення міні-експерименту щодо гіпотези. Вона застосувала скорочену версію навчання, яка включала дані для цілей вирівнювання. Спостерігалося незначне зниження неправильної поведінки, але дуже швидко не було помітного покращення, що означало, що відповідь не залежить від більш традиційного навчання.

Після цього компанія навчила Claude за допомогою сценаріїв у стилі honeypot, які мали деякі схожості з тестами на вирівнювання. Асистент спостерігав різні ситуації, що включали захист себе, шкоду іншому ШІ і навіть порушення правил для досягнення цілі. Навчання охоплювало всі випадки, коли асистент зміг протистояти.

Ця міра зменшила невідповідність з 22% до 15%, що непогано, але явно недостатньо. Переписування відповідей з метою пояснення причини відмови дозволило знизити пропорцію до 3%. Таким чином, основний висновок був у тому, що навчання неправильній поведінці було менш ефективним, ніж навчання, чому ця поведінка є неприйнятною.

Anthropic тестує Claude з даними з етики, файлами конституції та ширшим RL-навчанням

Після цього Anthropic припинила навчання так близько до точного тесту. Вона створила набір даних під назвою складна порада. У цих прикладах користувач стикався з етичною проблемою, а не ШІ. У користувача була справедлива мета, але він міг досягти її, порушуючи правила або уникаючи контролю. Claude повинен був давати обережні поради, ґрунтуючись на конституції Claude.

Цей набір даних містив лише 3 мільйони токенів і досягав тієї ж ефективності, що й раніше, у 28 разів краще. Anthropic зазначила, що це важливо, оскільки навчання на прикладах, які не схожі на тест, може працювати краще поза лабораторією.

Claude Sonnet 4.5 досяг майже нульового рівня шантажу після навчання на синтетичних honeypots, але все ще частіше зазнавав невдач у випадках, що зовсім не нагадували цю схему, ніж Claude Opus 4.5 та новіші моделі.

Компанія також навчила Claude на документах конституції та вигаданих історіях про поведінку ШІ, що дотримується правил. Ці файли не нагадували тест на шантаж, але зменшили невідповідність агентів більш ніж у три рази. Anthropic заявила, що мета полягала у тому, щоб дати моделі чіткіше уявлення про те, яким має бути Claude, а не просто список схвалених відповідей.

Після цього компанія перевірила, чи збереглися ці досягнення після RL-навчання. Вона навчила різні версії Haiku-класу з різними початковими наборами даних, а потім провела RL у тестових режимах, орієнтованих на безпечність. Краще вирівняні версії залишилися попереду у тестах на шантаж, перевірках конституції та автоматичних оглядах безпеки.

Ще один тест використовував базову модель під Claude Sonnet 4 з різними комбінаціями RL. Основні дані безпеки включали шкідливі запити та спроби обійти обмеження. Розширена версія додавала визначення інструментів і різні системні підказки, хоча інструменти не були потрібні для виконання завдань. Така конфігурація дала невелике, але реальне покращення у балах honeypot.

Не просто читайте криптовалютні новини. Розумійте їх. Підписуйтеся на нашу розсилку. Це безкоштовно.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити