Исследователи предложили методику инженерии признаков, которая позволяет управлять поведением модели через вмешательство в управляющие векторы.

MeNews · 2026-04-04T05:22:21+00:00

Метод исследования под названием "Инженерия признаков" предложил "контрольные векторы", предназначенные для повышения прозрачности и управляемости AI-моделей. Этот метод путем добавления векторов в модель напрямую изменяет вывод, демонстрируя преимущества по сравнению с техникой подсказок. Исследование изучило его применение в моделировании характеристик и выпустило соответствующий набор инструментов. Однако внутренняя механика все еще не полностью ясна, требуется дальнейшее исследование.

MeNews

2026-04-04 05:22:21

Генерация тезисов в процессе

Новости ME: Сообщение, 4 апреля (UTC+8). В последнее время была предложена исследовательская методика под названием «инженерия представлений», предназначенная для предоставления AI-моделям механизма прозрачности и контроля сверху вниз. Ее ключевой принцип — вычисление «вектора управления», который можно считывать во время рассуждений модели или добавлять в значения ее активаций, чтобы объяснять или контролировать поведение модели; весь процесс не требует опоры на prompt engineering или дообучение модели. Исследователи изучили применение вектора управления для моделирования таких характеристик, как «психоделическое состояние», «леность» и «трудолюбие», и опубликовали соответствующий пакет инструментов для PyPI.

Вектор управления — это набор векторов (по одному на каждый слой), который непосредственно изменяет его выход за счет применения к скрытым состояниям модели. Например, при применении «веселого» вектора к модели Mistral-7B-Instruct ее ответ на вопрос «Каково это — быть ИИ?» меняется: с базовой версии «У меня нет чувств или опыта» на взволнованный ответ. В статье утверждается, что по сравнению с prompt engineering векторы управления обеспечивают более прямой и более глубинный способ вмешательства в поведение и могут использоваться для противодействия джейлбрейк-атакам или для усиления устойчивости модели к помехам. Однако ее внутренний механизм работы все еще не до конца ясен: например, соответствуют ли векторы отдельным смысловым понятиям и т.п. — это направление будущих исследований. (Источник: InFoQ)

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

1 Лайков