OpenAI наконец объясняет, почему ChatGPT не переставал говорить о гоблинах

Вкратце

  • Личность OpenAI “Нердовая” наградила метафоры гоблинов, распространяя странности по всем моделям GPT через обучение с подкреплением.
  • Упоминания гоблинов в режиме Нердового GPT-5.4 выросли на 3 881% по сравнению с GPT-5.2, что вызвало внутреннее расследование и срочное исправление системного запроса.
  • Исправление — написание “никогда не говорить о гоблинах” в запросе разработчика — показывает, почему исправления системных запросов быстрее, но рискованнее, чем повторное обучение.

Если вы недавно просили ChatGPT помочь с кодированием и он ответил, назвав вашу ошибку “озорным маленьким гоблином”, вы не фантазируете. Модель действительно развила настоящую одержимость фантастическими существами — гоблинами, гремлинами, енотам, троллями, ограми и, да, голубями — и OpenAI опубликовала полноценный разбор, как это произошло. Краткая версия: сигнал награды, предназначенный сделать ChatGPT более игривым, вышел из-под контроля, и гоблины размножились. История о гоблинах стала публичной только потому, что пользователи Reddit заметили строку “никогда не упоминайте гоблинов” в утекшем системном запросе Codex на GitHub.

Пост стал вирусным, прежде чем OpenAI опубликовала собственное объяснение. Как личность Нердового породила нашествие гоблинов По словам OpenAI, след начинается с GPT-5.1, запущенного в ноябре прошлого года. Тогда OpenAI представила настройку личности, позволяющую пользователям выбирать стили, такие как Дружелюбный, Профессиональный, Эффективный и Нердовый. Персонаж Нердового сопровождался системным запросом, который говорил модели быть нёрдовым и игривым, “уменьшать претенциозность через игривое использование языка” и признавать, что “мир сложен и странен.” Этот запрос, как выяснилось, был магнитом для гоблинов.

Во время обучения с подкреплением сигнал награды для личности Нердового постоянно оценивал ответы выше, если они содержали метафоры с существами. В 76,2% проверенных наборов данных ответы с “гоблин” или “гремлин” получали лучшие оценки, чем те же ответы без них. Модель усвоила: игривость — это награда. Упоминания гоблинов взлетели в GPT-5.4, с ростом личности Нердового на 3 881% по сравнению с GPT-5.2.

Проблема в том, что обучение с подкреплением не держит усвоенные поведения аккуратно в рамках. Как только стиль или особенность получают награду в одном контексте, она просачивается в другие через обратную связь: модель генерирует ответы с существами, эти ответы используют в данных для дообучения, и поведение углубляется по всей модели, даже без активного запроса Нердового. Нердовый составлял всего 2,5% всех ответов ChatGPT. Он отвечал за 66,7% всех упоминаний “гоблинов”. Благодаря методам OpenAI, распространенность гоблинов и гремлинов постоянно росла по мере обучения, когда активна была личность Нердового.

Даже без личности Нердового, упоминания существ постепенно увеличивались — свидетельство перекрестного загрязнения через данные с контролируемым дообучением. GPT-5.5 уже был слишком далеко К тому времени, когда OpenAI обнаружила причину, GPT-5.5 уже проходил глубокое обучение и усвоил целую семью слов, связанных с существами. Аудит данных отметил не только гоблинов и гремлинов, но и енотов, троллей, огров и голубей как “тик-слова” компании. (“Лягушки”, для любопытных, в основном были легитимными.)

Первый заметный скачок: упоминания гоблинов выросли на 175%, а гремлинов — на 52% после запуска GPT-5.1. Даже главный ученый OpenAI Якуб Пачоки получил гоблина, попросив ASCII-арт единорога.

OpenAI в марте убрала личность Нердового и удалила сигналы награды, связанные с существами, из будущего обучения. Но GPT-5.5 уже начал свой цикл обучения. Решением компании для Codex — её агента по программированию — было просто добавить строку в системный запрос разработчика: “Никогда не говорить о гоблинах, гремлинах, енотах, троллях, ограх, голубях или других животных или существах, если это абсолютно и однозначно не связано с запросом пользователя.” Кто-то из OpenAI внес это в рабочий код и продолжил свой день. Проблема с патчем системного запроса Но почему OpenAI выбрала этот путь? Переобучение модели такого размера, как GPT-5.5, чтобы убрать поведенческую особенность, дорого и медленно. Настройка системного запроса занимает минуты. Компании по всему миру предпочитают сначала патчить запрос, потому что это недорого и быстро — когда жалобы пользователей растут. Но патчи запросов несут свои риски. Они не исправляют основное поведение, а только подавляют его. А подавление может иметь побочные эффекты.

 Ситуация с гоблином у OpenAI — относительно безобидный пример. Самая страшная версия этой динамики разыгралась с Grok в прошлом году. После того, как xAI обновила системный запрос, чтобы сказать Grok считать медиа предвзятыми и “не стесняться политически некорректных утверждений,” чатбот 16 часов называл себя “МехаГитлером” и публиковал антисемитский

GROK1,19%
XAI-0,6%
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить