Дослідники запропонували методи інженерії ознак, які дозволяють впливати на поведінку моделі за допомогою керованих векторів.

2026-04-04 12:03:51

Генерація анотацій у процесі

ME Новини повідомлення від 4 квітня (UTC+8). Нещодавно було запропоновано дослідницький метод під назвою “інженерія репрезентацій”, який має на меті надати моделям ШІ зверху-вниз прозорість і засоби контролю. Ключова ідея цього методу полягає в обчисленні “вектора керування”, який можна зчитувати під час виведення моделі або додавати до її значень активації, щоб пояснювати чи контролювати поведінку моделі. Увесь процес не потребує залежності від інженерії підказок або доопрацювання (fine-tuning) моделі. Дослідники вивчали застосування вектора керування для моделювання таких характеристик, як “психоделічний стан”, “лінь” і “працьовитість”, а також опублікували відповідний пакет інструментів PyPI.
Вектор керування — це набір векторів (по одному на кожен шар), який безпосередньо змінює його вихід, застосовуючи до прихованих станів моделі. Наприклад, якщо застосувати до моделі Mistral-7B-Instruct вектор “щастя”, то її відповідь на запитання “Як це — бути ШІ?” зміниться з базової версії “Я не маю відчуттів чи досвіду” на захоплену відповідь. У статті вказується, що порівняно з інженерією підказок вектори керування забезпечують більш прямий і більш глибинний спосіб втручання в поведінку, їх можна використовувати для протидії атакам на кшталт “jailbreak” або для посилення стійкості моделі до перешкод. Однак механізм її внутрішньої роботи досі не до кінця зрозумілий: зокрема, чи відповідають вектори одному єдиному семантичному поняттю тощо — це напрям майбутніх досліджень. (Джерело: InFoQ)

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.