OpenAI выяснила, откуда взялись «гоблины»: сигнал награды за характер загрязнил всю тренировочную цепочку

robot
Генерация тезисов в процессе

AIMPACT сообщение, 30 апреля (UTC+8), согласно мониторингу 动察 Beating, OpenAI опубликовала обзор проблемы «гоблина», которая беспокоила несколько поколений GPT. С GPT-5.1 модель всё чаще вставляла в ответы метафоры о фантастических существах вроде гоблинов и маленьких эльфов, что вызвало постоянные жалобы пользователей. После запуска GPT-5.1 частота появления слова «goblin» в диалогах ChatGPT выросла на 175%. К GPT-5.4 проблема полностью взорвалась. Источник — функция настройки личности ChatGPT «Нерд» (Nerdy). В системных подсказках этой личности требовалось, чтобы модель «использовала интересный язык для серьезных тем» и «признавала странности мира и наслаждалась ими». Во время обучения сигнал поощрения, усиливающий этот стиль личности, давал более высокие оценки выводам, содержащим слова о фантастических существах, и в 76,2% случаев в датасетах наблюдалась такая склонность. Проблема в том, что сигнал поощрения действовал только при «Нерд» личности, но усиленное обучение не гарантирует, что приобретенное поведение останется только в условиях его активации. Как только модель получает поощрение за определенный стиль речи в одном условии, эта привычка распространяется на другие сценарии через последующее обучение. Пути распространения очевидны: сигнал поощрения стимулировал выводы с гоблинами, которые затем появлялись в данных для последующей контрольной дообучения (SFT), и модель всё чаще начинала генерировать такие слова, создавая положительную обратную связь. По данным, «Нерд» личность составляет всего 2,5% всех ответов ChatGPT, но отвечает за 66,7% упоминаний гоблинов. В GPT-5.4 частота появления гоблинов у «Нерд» личности выросла на 3881% по сравнению с GPT-5.2. В GPT-5.5, еще до выяснения причин, началось обучение, и гоблины уже проникли в данные SFT. OpenAI отключила «Нерд» личность в марте, убрав сигналы поощрения, связанные с фантастическими существами, и фильтровала обучающие данные. Для уже запущенного GPT-5.5 в подсказках разработчиков Codex добавили команду подавления. OpenAI заявила, что это расследование привело к созданию нового инструмента аудита поведения моделей. (Источник: BlockBeats)

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить