Исследователи предложили методику инженерии признаков, которая позволяет управлять поведением модели через вмешательство в управляющие векторы.

MeNews · 2026-04-04T12:49:51+00:00

Метод исследования под названием "Инженерия признаков" предложил "контрольные векторы", предназначенные для повышения прозрачности и управляемости AI-моделей. Этот метод путем добавления векторов в модель напрямую изменяет вывод, демонстрируя преимущества по сравнению с техникой подсказок. Исследование изучило его применение в моделировании характеристик и выпустило соответствующий набор инструментов. Однако внутренняя механика все еще не полностью ясна, требуется дальнейшее исследование.

MeNews

2026-04-04 12:49:51

Генерация тезисов в процессе

ME News сообщение, 4 апреля (UTC+8), недавно была предложена исследовательская методика под названием «инжиниринг представлений», предназначенная для обеспечения ИИ-моделей сверху вниз прозрачностью и средствами контроля. В основе этого подхода лежит вычисление «вектора контроля», который можно считывать во время вывода модели или добавлять к значениям ее активаций, чтобы объяснять или контролировать поведение модели; при этом весь процесс не требует опоры ни на prompt engineering, ни на донастройку модели. Исследователи изучили применение вектора контроля для моделирования таких свойств, как «психоделическое состояние», «леность» и «трудолюбие», и опубликовали соответствующий пакет инструментов для PyPI.

Вектор контроля — это набор векторов (по одному на каждый слой), который при применении к скрытым состояниям модели напрямую меняет ее выход. Например, если применить к модели Mistral-7B-Instruct «вектор радости», то ответ на вопрос «что вы чувствуете, будучи ИИ?» изменится с ответа базовой версии «у меня нет ощущения или опыта» на взволнованный ответ. Авторы статьи считают, что по сравнению с prompt engineering векторы контроля обеспечивают более прямой и более фундаментальный способ вмешательства в поведение; их можно применять для противодействия атакам jailbreaking или для усиления устойчивости модели к помехам. Однако внутренний механизм работы по-прежнему не до конца ясен, например, соответствует ли вектор единственному семантическому понятию, — это направление будущих исследований. (Источник: InFoQ)

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

1 Лайков