Исследователи предложили методику инженерии признаков, которая позволяет управлять поведением модели через вмешательство в управляющие векторы.

robot
Генерация тезисов в процессе

ME News-сообщении, 4 апреля (UTC+8), в последнее время был предложен исследовательский метод под названием «инженерия представления», который направлен на то, чтобы обеспечить для моделей ИИ сверху вниз прозрачность и механизм контроля. В основе метода лежит вычисление «вектора управления»: его можно считывать во время вывода модели или добавлять к значениям активаций модели, чтобы объяснять или контролировать поведение модели; при этом весь процесс не требует опоры на инженеринг подсказок или дообучение модели. Исследователи изучили применение вектора управления для моделирования таких свойств, как «психоделическое состояние», «лень» и «усердие», и выпустили соответствующий пакет инструментов PyPI.

Вектор управления — это набор векторов (по одному на каждый слой), который напрямую изменяет выход модели за счет применения к ее скрытым состояниям. Например, если применить к модели Mistral-7B-Instruct «весёлый» вектор, то ответ на вопрос «каково это — быть ИИ?» изменится: от ответа базовой версии «я не чувствую или не испытываю ничего» к взволнованному ответу. В статье утверждается, что по сравнению с инженерингом подсказок векторы управления дают более прямой и более «низкоуровневый» способ вмешательства в поведение; их можно использовать для противодействия атакам с джейлбрейком или для усиления устойчивости модели к помехам. Однако внутренний механизм работы по-прежнему не до конца ясен — например, соответствуют ли векторы отдельным семантическим понятиям, — и это является направлением будущих исследований. (Источник: InFoQ)

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить