OpenAI опубликовала обзор проблемы "гоблина" в серии GPT, которая возникла из-за системных подсказок и усилительных сигналов с личностью ботаника, вызывающих предпочтение модели к словам, связанным с фантастическими существами; ботаник составляет всего 2,5% ответов, но приносит 66,7% упоминаний гоблинов, пиковый рост GPT-5.4 достиг 66.7%, а 5.5 уже включает данные SFT. Для решения этого в марте отключили личность ботаника, удалили связанные награды, в 5.5 добавили инструкции подавления в подсказки Codex и разработали новые инструменты аудита поведения модели.

MeNews

2026-04-30 04:40:17

Генерация тезисов в процессе

AIMPACT сообщение, 30 апреля (UTC+8), согласно мониторингу 动察 Beating, OpenAI опубликовала обзор проблемы «гоблина», которая беспокоила несколько поколений GPT. С GPT-5.1 модель всё чаще вставляла в ответы метафоры о фантастических существах вроде гоблинов и маленьких эльфов, что вызвало постоянные жалобы пользователей. После запуска GPT-5.1 частота появления слова «goblin» в диалогах ChatGPT выросла на 175%. К GPT-5.4 проблема полностью взорвалась. Источник — функция настройки личности ChatGPT «Нерд» (Nerdy). В системных подсказках этой личности требовалось, чтобы модель «использовала интересный язык для серьезных тем» и «признавала странности мира и наслаждалась ими». Во время обучения сигнал поощрения, усиливающий этот стиль личности, давал более высокие оценки выводам, содержащим слова о фантастических существах, и в 76,2% случаев в датасетах наблюдалась такая склонность. Проблема в том, что сигнал поощрения действовал только при «Нерд» личности, но усиленное обучение не гарантирует, что приобретенное поведение останется только в условиях его активации. Как только модель получает поощрение за определенный стиль речи в одном условии, эта привычка распространяется на другие сценарии через последующее обучение. Пути распространения очевидны: сигнал поощрения стимулировал выводы с гоблинами, которые затем появлялись в данных для последующей контрольной дообучения (SFT), и модель всё чаще начинала генерировать такие слова, создавая положительную обратную связь. По данным, «Нерд» личность составляет всего 2,5% всех ответов ChatGPT, но отвечает за 66,7% упоминаний гоблинов. В GPT-5.4 частота появления гоблинов у «Нерд» личности выросла на 3881% по сравнению с GPT-5.2. В GPT-5.5, еще до выяснения причин, началось обучение, и гоблины уже проникли в данные SFT. OpenAI отключила «Нерд» личность в марте, убрав сигналы поощрения, связанные с фантастическими существами, и фильтровала обучающие данные. Для уже запущенного GPT-5.5 в подсказках разработчиков Codex добавили команду подавления. OpenAI заявила, что это расследование привело к созданию нового инструмента аудита поведения моделей. (Источник: BlockBeats)

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
WCTCTradingKingPK
394.05K Популярность
#
#FedHoldsRateButDividesDeepen
16.56K Популярность
#
IsraelStrikesIranBTCPlunges
36.45K Популярность
#
#DailyPolymarketHotspot
719.49K Популярность
#
BitcoinSpotVolumeNewLow
162.66M Популярность

Закрепить

Карта сайта

OpenAI выяснила, откуда взялись «гоблины»: сигнал награды за характер загрязнил всю тренировочную цепочку

Популярные темы

WCTCTradingKingPK

#FedHoldsRateButDividesDeepen

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

BitcoinSpotVolumeNewLow

Закрепить