Исследователи предложили методику инженерии признаков, которая позволяет управлять поведением модели через вмешательство в управляющие векторы.

MeNews · 2026-04-04T10:36:21+00:00

Метод исследования под названием "Инженерия признаков" предложил "контрольные векторы", предназначенные для повышения прозрачности и управляемости AI-моделей. Этот метод путем добавления векторов в модель напрямую изменяет вывод, демонстрируя преимущества по сравнению с техникой подсказок. Исследование изучило его применение в моделировании характеристик и выпустило соответствующий набор инструментов. Однако внутренняя механика все еще не полностью ясна, требуется дальнейшее исследование.

MeNews

2026-04-04 10:36:21

Генерация тезисов в процессе

ME Новости, сообщение, 4 апреля (UTC+8). Недавно был предложен исследовательский метод под названием «инженерия представлений», призванный дать AI-моделям сверху вниз прозрачность и средства контроля. В основе метода лежит вычисление «вектора управления», который можно считывать во время вывода модели или добавлять к значениям активаций модели, чтобы объяснять или контролировать поведение модели; весь процесс не требует опоры на prompt engineering или донастройку модели. Исследователи изучили применение вектора управления для моделирования таких свойств, как «психоделическое состояние», «леность» и «трудолюбие», и выпустили соответствующий пакет инструментов PyPI.

Вектор управления — это набор векторов (по одному на каждый слой), который напрямую меняет его выходные данные, применяясь к скрытому состоянию модели. Например, после применения к модели Mistral-7B-Instruct вектора «радостный» ответ на вопрос «что вы чувствуете, когда речь идет об AI?» меняется с исходной версии «у меня нет чувств или опыта» на взволнованный ответ. В тексте утверждается, что по сравнению с prompt engineering вектор управления обеспечивает более прямой и более фундаментальный способ вмешательства в поведение, который можно использовать для противодействия атакам jailbreaking или для повышения устойчивости модели к помехам. Однако внутренний механизм работы все еще не до конца понятен: например, соответствует ли вектор единому семантическому понятию, и это является направлением будущих исследований. (Источник: InFoQ)

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .