Дослідники запропонували методи інженерії ознак, які дозволяють впливати на поведінку моделі за допомогою керованих векторів.

robot
Генерація анотацій у процесі

Новини від ME: повідомлення, 4 квітня (UTC+8). Нещодавно було запропоновано дослідницький підхід під назвою “інженерія представлення”, який має на меті надати моделям ШІ засіб прозорості та контролю зверху вниз. Ключова ідея цього методу — обчислення “вектора керування”, який можна зчитувати під час виведення моделі або додавати до значень її активацій, щоб пояснити чи контролювати поведінку моделі; весь процес не потребує покращення промптів або доопрацювання моделі шляхом донавчання. Дослідники вивчали застосування вектора керування для симуляції таких властивостей, як “психоделічний стан”, “ленивість” і “працьовитість”, а також опублікували відповідний пакет інструментів на PyPI. Вектор керування — це набір векторів (по одному на кожен шар), який шляхом застосування до прихованих станів моделі безпосередньо змінює її вихід. Наприклад, якщо застосувати до моделі Mistral-7B-Instruct вектор “щастя”, то відповідь на запитання “які відчуття має ШІ?” зміниться з базової версії “у мене немає відчуттів або досвіду” на захоплену відповідь. Автори статті вважають, що порівняно з інженерією промптів вектори керування забезпечують більш безпосереднє та більш глибинне втручання в поведінку, яке можна використовувати для протидії атакам із “вибиванням” (jailbreak) або для посилення стійкості моделі до перешкод. Водночас механізми роботи всередині все ще не повністю зрозумілі, наприклад, чи відповідає вектор якомусь одному семантичному поняттю тощо — це є напрямом майбутніх досліджень. (Джерело: InFoQ)

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити