Згідно з моніторингом Beating, OpenAI опублікувала огляд проблеми «гоблінів», яка турбувала кілька поколінь серії GPT. З початку GPT-5.1 модель все частіше вставляє у відповіді порівняння з фантастичними істотами, такими як гобліни та маленькі ельфи, що викликає постійні скарги користувачів. Після запуску GPT-5.1 частота використання слова «goblin» у діалогах ChatGPT зросла на 175%. До GPT-5.4 проблема досягла критичної точки.

Корінь проблеми — у функції налаштування особистості ChatGPT «Нерд» (Nerdy). Системний підказка цієї особистості вимагає від моделі «знімати серйозність за допомогою цікавості мови» та «приймати дивність світу і насолоджуватися нею». Під час тренування сигнал винагороди, що підсилює цей стиль поведінки, надавався за вихідні дані з використанням фантастичних істот, що отримали вищий бал, і в 76,2% датасетів спостерігалася така тенденція.

Проблема у тому, що сигнал винагороди діє лише в рамках «Нерд» особистості, але підсилювальне навчання не гарантує, що набуті поведінки залишаться лише у відповідних сценаріях. Як тільки модель отримує винагороду за певний стиль мовлення в одному контексті, ця звичка може поширитися на інші ситуації через подальше навчання. Шлях поширення досить очевидний: сигнал винагороди заохочує вихідні дані з гоблінами, які потім з’являються у даних для подальшого контрольованого донавчання (SFT), і модель все більше звикає до таких слів, створюючи позитивний зворотний зв’язок. За даними, «Нерд» особистість становить лише 2,5% усіх відповідей ChatGPT, але відповідає за 66,7% згадок гоблінів. У GPT-5.4 частота появи гоблінів у «Нерд» особистості зросла на 3881% порівняно з GPT-5.2.

GPT-5.5 почала тренуватися ще до з’ясування причин, і гобліни вже проникли у дані SFT. OpenAI у березні відмовилася від «Нерд» особистості, видалила сигнал винагороди, що сприяв фантастичним істотам, і відфільтрувала тренувальні дані. Для вже запущеного GPT-5.5 у підказках розробників Codex додали команду для пригнічення цієї поведінки. OpenAI заявила, що це дослідження сприяло створенню нових інструментів для аудиту поведінки моделей.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
WCTCTradingKingPK
390.8K Популярність
#
#FedHoldsRateButDividesDeepen
14.08K Популярність
#
IsraelStrikesIranBTCPlunges
36.43K Популярність
#
#DailyPolymarketHotspot
717.05K Популярність
#
BitcoinSpotVolumeNewLow
162.66M Популярність

Закріпити

карта сайту

OpenAI з’ясувала, звідки взялися «Гобліни»: сигнал нагороди за характер забруднив усю тренувальну лінію

Популярні теми

WCTCTradingKingPK

#FedHoldsRateButDividesDeepen

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinSpotVolumeNewLow

Закріпити