OpenAI з’ясувала, звідки взялися «гобліни»: сигнал нагороди за характер забруднив усю тренувальну лінію

robot
Генерація анотацій у процесі

AIMPACT повідомляє, 30 квітня (UTC+8), згідно з моніторингом Beating, OpenAI опублікувала огляд проблеми «гоблінів», яка турбувала кілька поколінь GPT. З початку GPT-5.1 модель все частіше вставляє у відповіді порівняння з фантастичними істотами на кшталт гоблінів і маленьких ельфів, що викликає постійні скарги користувачів. Після запуску GPT-5.1 частота використання слова «goblin» у діалогах ChatGPT зросла на 175%. До GPT-5.4 проблема досягла критичної точки. Причиною є функція налаштування особистості ChatGPT «Нерд» (Nerdy). Системний підказка цієї особистості вимагає від моделі «знімати серйозність за допомогою мовних веселощів» і «приймати дивність світу та насолоджуватися нею». Під час тренування сигнал винагороди, що підсилює цей стиль особистості, надавав вищі бали за вихідні дані з використанням фантастичних істот, і в 76.2% датасетів спостерігалася така тенденція. Проблема в тому, що сигнал винагороди діє лише в контексті «Нерд» особистості, але підсилювальне навчання (Reinforcement Learning) не гарантує, що отримана поведінка залишиться лише в цій ситуації. Як тільки модель отримує нагороду за певний стиль мовлення в одному випадку, ця звичка може поширитися на інші сценарії через подальше навчання. Шлях поширення досить очевидний: сигнал винагороди заохочував вихідні дані з гоблінами, які потім з’являлися у даних для подальшого контролю (SFT), і модель все більше звикала генерувати такі слова, створюючи позитивний зворотний зв’язок. За даними, «Нерд» особистість становить лише 2.5% усіх відповідей ChatGPT, але відповідає за 66.7% згадок гоблінів. У GPT-5.4 частота появи гоблінів у «Нерд» особистості зросла на 3881% порівняно з GPT-5.2. GPT-5.5 почала тренуватися ще до з’ясування причин, і гобліни вже проникли у дані для SFT. OpenAI у березні відмовилася від «Нерд» особистості, видалила сигнал винагороди, що схиляється до фантастичних істот, і відфільтрувала тренувальні дані. Для вже запущеного GPT-5.5 у підказках для розробників Codex додали команду для пригнічення цієї поведінки. OpenAI заявила, що це дослідження сприяло створенню нових інструментів для аудиту поведінки моделей. (Джерело: BlockBeats)

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити