Дослідники запропонували методи інженерії ознак, які дозволяють впливати на поведінку моделі за допомогою керованих векторів.

2026-04-04 10:36:21

Генерація анотацій у процесі

Новини ME: повідомлення, 4 квітня (UTC+8). Нещодавно було запропоновано дослідницький метод під назвою «контрольна інженерія», який має на меті надати AI-моделям зверху донизу прозорість і керування. У центрі цього підходу — обчислення «контрольного вектора», який можна зчитувати під час виводу моделі або додавати до значень її активацій, щоб пояснювати чи контролювати поведінку моделі; увесь процес не потребує залежності від prompt engineering (інженерії підказок) або доопрацювання моделі (fine-tuning). Дослідники вивчали застосування контрольних векторів для моделювання таких рис, як «психоделічний стан», «ленивість» і «працьовитість», та опублікували відповідний пакет інструментів для PyPI. Контрольний вектор — це набір векторів (по одному на кожен шар), який, будучи застосованим до прихованих станів моделі, безпосередньо змінює її вихід. Наприклад, після застосування до моделі Mistral-7B-Instruct «веселого» вектора відповідь на питання «Що відчуває AI?» змінюється із базової версії «Я не маю відчуттів або досвіду» на захоплену. У статті висловлюється думка, що порівняно з інженерією підказок контрольні вектори забезпечують пряміші та глибші способи втручання в поведінку, їх можна застосовувати для протидії атакам типу jailbreak або для підвищення здатності моделі чинити опір перешкодам. Однак механізм їхньої внутрішньої роботи досі не до кінця зрозумілий: зокрема, чи відповідає вектор якомусь одному семантичному поняттю тощо — це напрям майбутніх досліджень. (Джерело: InFoQ)

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.