据动察 Beating 监测，OpenAI 发文复盘了困扰 GPT 系列多代的「哥布林」问题。从 GPT-5.1 起，模型越来越爱在回答里塞哥布林、小妖精之类的奇幻生物比喻，用户投诉不断。GPT-5.1 上线后，ChatGPT 对话中出现「goblin」一词的频率上升了 175%。到 GPT-5.4，问题彻底爆发。根源在 ChatGPT 的「书呆子」（Nerdy）人格定制功能。这个人格的系统提示词要求模型「用语言的趣味性消解一本正经」「承认世界的怪异并享受它」。训练时，用于强化这个人格风格的奖励信号对含有奇幻生物词汇的输出打了更高分，76.2% 的数据集中都能观察到这种偏向。

BlockBeatNews

2026-04-30 04:06:26

動察 Beating 監測によると、OpenAIはGPTシリーズの複数世代にわたる「ゴブリン」問題について振り返りを行った。GPT-5.1以降、モデルはますます回答にゴブリンや小妖精などの幻想生物の比喩を挿入する傾向が強まり、ユーザーからの苦情が絶えなかった。GPT-5.1のリリース後、ChatGPTの会話中で「goblin」という語の出現頻度は175％増加した。GPT-5.4に至ると、この問題は完全に爆発した。

根本原因はChatGPTの「書呆子」（Nerdy）人格設定機能にある。この人格のシステムプロンプトは、モデルに「言語の面白さを用いて真面目さを解消し」「世界の奇怪さを認め、それを楽しむ」ことを求めている。訓練時には、この人格スタイルを強化する報酬信号が、幻想生物の語彙を含む出力に高いスコアを付与し、76.2％のデータセットでこの偏りが観察された。

問題は、報酬信号が「書呆子」人格下でのみ有効であることだが、強化学習は学習した行動がトリガー条件内に留まることを保証しない。一度モデルが特定の条件下である話し方の習慣を報酬された場合、その習慣は後続の訓練を通じて他のシナリオに拡散していく。拡散の経路は明確で、報酬信号はゴブリンを含む出力を促し、その出力は後の監督微調整（SFT）データに現れ、モデルは次第にこの種の語彙を出すことに慣れ、正のフィードバックループを形成する。データを見ると、「書呆子」人格はChatGPT全体の返信のわずか2.5％を占めるが、ゴブリンの言及量の66.7％を貢献している。GPT-5.4では、「書呆子」人格のゴブリン出現率はGPT-5.2に比べて3881％急増した。

GPT-5.5は根本原因の調査前に訓練を開始しており、ゴブリンはすでにSFTデータに混入していた。OpenAIは3月に「書呆子」人格を廃止し、幻想生物に偏った報酬信号を除去し、訓練データをフィルタリングした。既にリリースされているGPT-5.5には、Codexの開発者向けプロンプトに抑制指令を追加した。OpenAIは今回の調査を通じて、新たなモデル行動監査ツールの開発を促した。

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。