Anthropic заставляет ИИ признаться: один из методов плагина LoRA обнаружил скрытые поведения, пропущенные десятью способами человека

robot
Генерация тезисов в процессе

Новости сайта CoinWorld: команда по выравниванию Anthropic выпустила технологию аудита под названием «инспекционные адаптеры» (introspection adapters), предназначенную для того, чтобы крупные языковые модели (LLM) могли естественным языком сообщать о поведении, которое они усвоили после тонкой настройки. Эта технология заключается в том, что из одного и того же базового модели с известным поведением дообучают множество моделей, а затем совместно обучают адаптер LoRA на этих моделях, что позволяет проверяемой модели самостоятельно выявлять свои скрытые поведения. На базе стандарта аудита auditbench, инспекционные адаптеры достигли 59% успеха, превосходя все предыдущие методы аудита; из 56 моделей с скрытыми поведениями 89% были успешно выявлены. В условиях атак на API для крипто-тонкой настройки, инспекционные адаптеры распознали 7 из 9 вариантов крипто-атаки, что составляет 57,8% успеха. Исследование также показало, что эффективность увеличивается с ростом размера модели, однако основным ограничением является высокий уровень ложных срабатываний. Исходный код, модели и датасеты опубликованы на GitHub и Hugging Face.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить