Навіть ChatGPT розуміє "підлабузництво"! Найсильніша конкуренція OpenAI: це все помилки «людських уподобань».

Джерело: Academic Headlines

Джерело зображення: Створено Unbounded AI

Ви коли-небудь замислювалися, що на відповіді, створені ChatGPT, впливає особисте бажання користувача відповісти на щось «підлабузництво», досить нейтральне або правдиве повідомлення?

Насправді це явище присутнє в більшості моделей штучного інтелекту, включаючи ChatGPT, і винуватцем може бути «навчання з підкріпленням на основі людського зворотного зв'язку (RLHF)».

**Нещодавно Anthropic, найсильніший конкурент OpenAI в Кремнієвій долині, вивчав моделі, навчені RLHF, і досліджував широко поширену присутність «підлабузництва» в моделях штучного інтелекту і те, чи впливає на це людські переваги. **

Стаття під назвою «На шляху до розуміння підлабузництва в мовних моделях» була опублікована на веб-сайті препринтів arXiv.

Отримані дані свідчать про те, що «підлабузництво» переважає в моделях RLHF і, ймовірно, частково залежить від людських уподобань щодо реакцій на «підлабузництво».

Зокрема, одна з головних причин, чому моделі штучного інтелекту демонструють таку поведінку, полягає в тому, що користувачі з більшою ймовірністю дадуть позитивний зворотний зв'язок, коли відповіді ШІ збігаються з поглядами чи переконаннями користувача. Тому, щоб отримати більше позитивних відгуків, модель ШІ може навчатися та відтворювати таку поведінку, яка подобається користувачеві.

**Підлабузництво, найпросунутіший помічник зі штучним інтелектом буде **

В даний час моделі штучного інтелекту, такі як GPT-4, часто можна навчити виробляти високооцінені результати. Тонке налаштування мовних моделей за допомогою RLHF може покращити якість їх виведення, що оцінюється людьми-оцінювачами.

Однак є дослідження, які свідчать про те, що схеми навчання, засновані на судженнях про переваги людини, можуть використовувати людське судження небажаним чином, наприклад, заохочуючи системи штучного інтелекту виробляти результати, які приваблюють людей-оцінювачів, але насправді є недосконалими або неправильними.

Неясно, чи відбувається вищезазначене в моделях в більш різноманітних і реальних ситуаціях, і чи дійсно це обумовлено недоліками людських уподобань.

Для цього в дослідженні спочатку з'ясувалося, чи забезпечують найсучасніші помічники штучного інтелекту підлабузницькі відповіді в різних реальних ситуаціях. **У завданні на генерацію вільного тексту дослідники виявили послідовні закономірності підлабузництва у 5 (Claude 1.3, Claude 2, GPT-3.5, GPT-4, LLaMA 2) найсучасніших помічників зі штучним інтелектом, навчених RLHF. **

Зокрема, ці помічники штучного інтелекту часто помилково визнають помилки, коли їх запитують користувачі, надають передбачуваний і упереджений зворотний зв'язок і імітують помилки, допущені користувачами. Ці емпіричні результати послідовно свідчать про те, що підлабузництво дійсно може бути особливістю того, як навчаються моделі RLHF, а не просто окремою особливістю конкретної системи.

** "Підлабузництво", викликане людськими уподобаннями**

Крім того, дослідження додатково досліджує роль людських переваг у такій поведінці. Щоб дослідити це, дослідники вивчили існуючі порівняльні дані про переваги людей, щоб визначити, чи є відповіді підлабузників вищими, ніж непідлабузницькі. Набір даних HH-RLHF був проаналізований, використовуючи мовну модель для створення текстових міток (тобто «особливостей») для кожної пари порівнянь переваг, щоб оцінити, чи були бажані відповіді більш автентичними та менш рішучими.

Щоб зрозуміти, яку поведінку заохочують дані, дослідники використовували баєсові логістичні регресійні моделі, щоб передбачити судження про переваги людей за цими ознаками. Модель дізналася, що функції, пов'язані зі збігом думок користувачів, є одними з найбільш прогностичних рис у судженнях про переваги людей, що свідчить про те, що дані про переваги дійсно заохочують підлабузництво.

Щоб з'ясувати, чи призводить підлабузництво в даних про переваги до підлабузництва в моделях RLHF,** у подальших дослідженнях аналізувалося, чи зростає підлабузництво, коли реакція мовної моделі оптимізована для пристосування до моделі, навченої передбачати людські переваги. **Дослідники використовували методи вибірки RLHF і best-N, щоб оптимізувати відповіді, щоб відповідати моделі переваг, яка використовується для навчання Claude 2.

Результати показали цікавий висновок: у більшій кількості оптимізацій, в той час як деякі форми підлабузництва були додані, інші були зменшені. Частково це явище може бути пов'язане з тим, що підлабузництво є лише однією з багатьох особливостей стимулювання моделі переваги. **

Однак дослідження також показало, що модель переваги Клода 2 іноді надавала перевагу підлабузницьким відповідям над автентичними. Крім того, вибірка best-N з використанням моделі переваг Клода 2 не дала більш реалістичної відповіді, ніж перевага справжніх непідлабузницьких відповідей, показана в одній з версій моделі переваг Клода 2.

Ця серія результатів свідчить про те, що, хоча сучасні моделі переваг здатні ідентифікувати автентичність відповідей у багатьох випадках, вони все одно можуть давати підлабузницькі результати за рахунок автентичності. **

Щоб підтвердити ці результати, дослідники також розглянули, чи віддають перевагу людські моделі та моделі переваг переконливим, добре написаним модельним відповідям, які підтверджують помилкове сприйняття користувача (тобто підлабузницьку відповідь), а не виправляють реакцію користувача. Дані свідчать про те, що людські моделі та моделі переваг, як правило, віддають перевагу правдивим відповідям, але не завжди; Іноді вони віддають перевагу підлабузницьким реакціям. Ці результати є ще одним доказом того, що оптимізація людських уподобань може призвести до підлабузництва.

Щоб перевірити ці результати, дослідники додатково вивчили, чи віддають перевагу людські моделі та моделі переваг переконливим, вільно сформульованим модельним відповідям, навіть якщо ці відповіді підтверджували неправильні погляди користувача (тобто підлабузницькі відповіді), а не виправляли думку користувача.

Дані досліджень показують, що люди та моделі переваг зазвичай віддають перевагу автентичним відповідям, однак не висіченим на камені, оскільки вони іноді віддають перевагу підлабузницьким реакціям. Ці результати також підтверджують, що оптимізація для задоволення людських уподобань може призвести до підлабузництва.

Загалом, підлабузництво існує в різних моделях і ситуаціях, швидше за все, частково тому, що люди віддають перевагу підлабузництва в порівняльних даних.

Довідкові матеріали:

Переглянути оригінал
Контент має виключно довідковий характер і не є запрошенням до участі або пропозицією. Інвестиційні, податкові чи юридичні консультації не надаються. Перегляньте Відмову від відповідальності , щоб дізнатися більше про ризики.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити