Исследователи предложили методику инженерии признаков, которая позволяет управлять поведением модели через вмешательство в управляющие векторы.

MeNews · 2026-04-04T12:03:51+00:00

Метод исследования под названием "Инженерия признаков" предложил "контрольные векторы", предназначенные для повышения прозрачности и управляемости AI-моделей. Этот метод путем добавления векторов в модель напрямую изменяет вывод, демонстрируя преимущества по сравнению с техникой подсказок. Исследование изучило его применение в моделировании характеристик и выпустило соответствующий набор инструментов. Однако внутренняя механика все еще не полностью ясна, требуется дальнейшее исследование.

MeNews

2026-04-04 12:03:51

Генерация тезисов в процессе

ME News-сообщении, 4 апреля (UTC+8), в последнее время был предложен исследовательский метод под названием «инженерия представления», который направлен на то, чтобы обеспечить для моделей ИИ сверху вниз прозрачность и механизм контроля. В основе метода лежит вычисление «вектора управления»: его можно считывать во время вывода модели или добавлять к значениям активаций модели, чтобы объяснять или контролировать поведение модели; при этом весь процесс не требует опоры на инженеринг подсказок или дообучение модели. Исследователи изучили применение вектора управления для моделирования таких свойств, как «психоделическое состояние», «лень» и «усердие», и выпустили соответствующий пакет инструментов PyPI.

Вектор управления — это набор векторов (по одному на каждый слой), который напрямую изменяет выход модели за счет применения к ее скрытым состояниям. Например, если применить к модели Mistral-7B-Instruct «весёлый» вектор, то ответ на вопрос «каково это — быть ИИ?» изменится: от ответа базовой версии «я не чувствую или не испытываю ничего» к взволнованному ответу. В статье утверждается, что по сравнению с инженерингом подсказок векторы управления дают более прямой и более «низкоуровневый» способ вмешательства в поведение; их можно использовать для противодействия атакам с джейлбрейком или для усиления устойчивости модели к помехам. Однако внутренний механизм работы по-прежнему не до конца ясен — например, соответствуют ли векторы отдельным семантическим понятиям, — и это является направлением будущих исследований. (Источник: InFoQ)

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .