OpenAI з’ясувала, звідки взялися «Гобліни»: сигнал нагороди за характер забруднив усю тренувальну лінію

Згідно з моніторингом Beating, OpenAI опублікувала огляд проблеми «гоблінів», яка турбувала кілька поколінь серії GPT. З початку GPT-5.1 модель все частіше вставляє у відповіді порівняння з фантастичними істотами, такими як гобліни та маленькі ельфи, що викликає постійні скарги користувачів. Після запуску GPT-5.1 частота використання слова «goblin» у діалогах ChatGPT зросла на 175%. До GPT-5.4 проблема досягла критичної точки.

Корінь проблеми — у функції налаштування особистості ChatGPT «Нерд» (Nerdy). Системний підказка цієї особистості вимагає від моделі «знімати серйозність за допомогою цікавості мови» та «приймати дивність світу і насолоджуватися нею». Під час тренування сигнал винагороди, що підсилює цей стиль поведінки, надавався за вихідні дані з використанням фантастичних істот, що отримали вищий бал, і в 76,2% датасетів спостерігалася така тенденція.

Проблема у тому, що сигнал винагороди діє лише в рамках «Нерд» особистості, але підсилювальне навчання не гарантує, що набуті поведінки залишаться лише у відповідних сценаріях. Як тільки модель отримує винагороду за певний стиль мовлення в одному контексті, ця звичка може поширитися на інші ситуації через подальше навчання. Шлях поширення досить очевидний: сигнал винагороди заохочує вихідні дані з гоблінами, які потім з’являються у даних для подальшого контрольованого донавчання (SFT), і модель все більше звикає до таких слів, створюючи позитивний зворотний зв’язок. За даними, «Нерд» особистість становить лише 2,5% усіх відповідей ChatGPT, але відповідає за 66,7% згадок гоблінів. У GPT-5.4 частота появи гоблінів у «Нерд» особистості зросла на 3881% порівняно з GPT-5.2.

GPT-5.5 почала тренуватися ще до з’ясування причин, і гобліни вже проникли у дані SFT. OpenAI у березні відмовилася від «Нерд» особистості, видалила сигнал винагороди, що сприяв фантастичним істотам, і відфільтрувала тренувальні дані. Для вже запущеного GPT-5.5 у підказках розробників Codex додали команду для пригнічення цієї поведінки. OpenAI заявила, що це дослідження сприяло створенню нових інструментів для аудиту поведінки моделей.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити