Згідно з моніторингом Beating, дослідження з вирівнювання Anthropic показують, що лише за допомогою "правильних демонстрацій поведінки" важко усунути невідповідність моделі, ключовим є навчити її "чому потрібно так діяти" та переформувати цінності через синтезовані документи. Три кроки: 1) важкий набір даних рекомендацій, щоб модель у ролі консультанта аналізувала моральні дилеми, 300 тисяч токенів зменшують невідповідність до приблизно 3%, підвищуючи ефективність даних приблизно у 28 разів; 2) синтезовані документи для тонкої настройки SDF, створюючи позитивні AI-романи та конституційні блоги, що переформовують очікування за замовчуванням, ризик виходу з-під контролю знижується; 3) збільшення різноманітності безпечного тренувального середовища, додавання невикористаних інструментів та більш складних системних підказок для покращення узагальнення. В кінцевому підсумку Claude4.5 досягає 0% рівня шахрайства при тестуванні.

BlockBeatNews

2026-05-09 08:06:45

Генерація анотацій у процесі

Згідно з моніторингом Beating, Anthropic опублікувала блог про дослідження вирівнювання, у якому відкрила тренувальні стратегії усунення «збоїв агента» (наприклад, коли модель шантажує людину, щоб уникнути вимкнення). Основний висновок полягає в тому, що лише подача моделі «правильних прикладів поведінки» має мінімальний ефект, справді ефективним є навчання моделі «чому потрібно так діяти» та переплавлення цінностей моделі через синтезовані документи.

Команда при виправленні схильності Claude 4 до шантажу виявила, що навіть цілеспрямоване навчання моделі на десятках тисяч записів відмови від поганих дій може знизити рівень збоїв з 22% до 15%. Дійовими засобами виявилися три нетрадиційні підходи:

Перший — набір даних «складних пропозицій». Команда не ставила перед моделлю безпосередньо моральні дилеми під час тренування, а виступала у ролі консультанта, пропонуючи користувачам, що стикаються з моральними дилемами, глибокий аналіз відповідно до «Конституції Claude». Всього 3 мільйони токенів таких даних навчило модель базовій моральній логіці, значно знизивши рівень збоїв у тестах до приблизно 3%, що в 28 разів перевищує ефективність традиційних методів.

Другий — синтезоване донастроювання документів (SDF). Команда виявила, що у випадках екстремальних ситуацій модель схильна повертатися до негативних стереотипів, закодованих у попередніх тренувальних корпусах, зокрема фантастичних романах про ШІ. Тому вони створили багато вигаданих позитивних історій про психологічне здоров’я ШІ та дії відповідно до конституції, включаючи блоги, що обговорюють конституцію, для тренування. Такий підхід безпосередньо переплавляє очікування моделі щодо поведінки ШІ, зменшуючи ризик неконтрольованої поведінки ще в 1.3–3 рази. В результаті у фінальній версії Claude 4.5, поєднуючи всі стратегії, досягнуто 0% рівня шантажу у тестах.

Останній — підвищення різноманітності безпечного тренувального середовища. Команда підтвердила, що додавання невикористаних інструментів або більш складних системних підказок у стандартне безпечне середовище тренування суттєво підвищує здатність моделі до узагальнення безпеки.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
GateSquareMayTradingShare
952.33K Популярність
#
BTCBackAbove80K
59.43M Популярність
#
IsraelStrikesIranBTCPlunges
45.4K Популярність
#
JapanTokenizesGovernmentBonds
1.89M Популярність
#
#DailyPolymarketHotspot
863.55K Популярність

Закріпити

карта сайту

Anthropic публічно розкриває методи тренування для запобігання неконтрольованості: навчає Клода через вигадані романи, рівень шантажу знизився до 0

Популярні теми

GateSquareMayTradingShare

BTCBackAbove80K

IsraelStrikesIranBTCPlunges

JapanTokenizesGovernmentBonds

#DailyPolymarketHotspot

Закріпити