Anthropic змушує ШІ зізнаватися: один плагін LoRA виявив приховану поведінку, яку пропустили 10 способів людського контролю

robot
Генерація анотацій у процесі

Звіт з Coinjie.com: команда з вирівнювання Anthropic опублікувала технологію аудиту під назвою «інтроспекційні адаптери» (introspection adapters), яка має на меті дозволити великим мовним моделям (LLM) у природній мові повідомляти про поведінку, яку вони вивчили після тонкого налаштування. Ця технологія полягає у тому, що з одного й того ж базового моделі тонко налаштовується багато моделей із відомою поведінкою, а потім на цих моделях спільно тренується LoRA-адаптер, що дозволяє аудованій моделі активно озвучувати свої приховані поведінки. На базі стандарту аудиту auditbench, інтроспекційні адаптери перевищили всі попередні методи аудиту з успіхом у 59%, з 56 моделей із прихованою поведінкою 89% вдалося успішно витягти опис поведінки. У разі атак на API для криптовалютного тонкого налаштування, інтроспекційні адаптери визначили 7 із 9 варіантів криптовалютних змін, з успіхом 57,8%. Дослідження також показало, що ефективність зростає із збільшенням масштабу моделі, основним обмеженням є високий рівень хибнопозитивних результатів. Код, моделі та датасети вже відкриті на GitHub та Hugging Face.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити