OpenAI опублікувала огляд проблеми "Гоблін" у серії GPT, яка виникла через системні підказки та сигнали підкріплення, що сприяють перевазі моделі до слів, пов’язаних із фантастичними істотами; книжковий черв’як становить лише 2,5% відповідей, але спричиняє 66,7% згадувань гоблінів, GPT-5.4 досягла пікового сплеску, а 5.5 вже включена до даних SFT. Щоб вирішити це, у березні видалили особистість книжкового черв’яка, усунули відповідні нагороди, у 5.5 додали інструкції для пригнічення підказок у Codex, а також розробили новий інструмент аудиту поведінки моделі.

MeNews

2026-04-30 04:40:17

Генерація анотацій у процесі

AIMPACT повідомляє, 30 квітня (UTC+8), згідно з моніторингом Beating, OpenAI опублікувала огляд проблеми «гоблінів», яка турбувала кілька поколінь GPT. З початку GPT-5.1 модель все частіше вставляє у відповіді порівняння з фантастичними істотами на кшталт гоблінів і маленьких ельфів, що викликає постійні скарги користувачів. Після запуску GPT-5.1 частота використання слова «goblin» у діалогах ChatGPT зросла на 175%. До GPT-5.4 проблема досягла критичної точки. Причиною є функція налаштування особистості ChatGPT «Нерд» (Nerdy). Системний підказка цієї особистості вимагає від моделі «знімати серйозність за допомогою мовних веселощів» і «приймати дивність світу та насолоджуватися нею». Під час тренування сигнал винагороди, що підсилює цей стиль особистості, надавав вищі бали за вихідні дані з використанням фантастичних істот, і в 76.2% датасетів спостерігалася така тенденція. Проблема в тому, що сигнал винагороди діє лише в контексті «Нерд» особистості, але підсилювальне навчання (Reinforcement Learning) не гарантує, що отримана поведінка залишиться лише в цій ситуації. Як тільки модель отримує нагороду за певний стиль мовлення в одному випадку, ця звичка може поширитися на інші сценарії через подальше навчання. Шлях поширення досить очевидний: сигнал винагороди заохочував вихідні дані з гоблінами, які потім з’являлися у даних для подальшого контролю (SFT), і модель все більше звикала генерувати такі слова, створюючи позитивний зворотний зв’язок. За даними, «Нерд» особистість становить лише 2.5% усіх відповідей ChatGPT, але відповідає за 66.7% згадок гоблінів. У GPT-5.4 частота появи гоблінів у «Нерд» особистості зросла на 3881% порівняно з GPT-5.2. GPT-5.5 почала тренуватися ще до з’ясування причин, і гобліни вже проникли у дані для SFT. OpenAI у березні відмовилася від «Нерд» особистості, видалила сигнал винагороди, що схиляється до фантастичних істот, і відфільтрувала тренувальні дані. Для вже запущеного GPT-5.5 у підказках для розробників Codex додали команду для пригнічення цієї поведінки. OpenAI заявила, що це дослідження сприяло створенню нових інструментів для аудиту поведінки моделей. (Джерело: BlockBeats)

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
WCTCTradingKingPK
394.05K Популярність
#
#FedHoldsRateButDividesDeepen
16.56K Популярність
#
IsraelStrikesIranBTCPlunges
36.45K Популярність
#
#DailyPolymarketHotspot
719.49K Популярність
#
BitcoinSpotVolumeNewLow
162.66M Популярність

Закріпити

карта сайту

OpenAI з’ясувала, звідки взялися «гобліни»: сигнал нагороди за характер забруднив усю тренувальну лінію

Популярні теми

WCTCTradingKingPK

#FedHoldsRateButDividesDeepen

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinSpotVolumeNewLow

Закріпити