OpenAIは「ゴブリン」がどこから来たのかを解明した:性格報酬信号が全ての訓練パイプラインを汚染していた

動察 Beating 監測によると、OpenAIはGPTシリーズの複数世代にわたる「ゴブリン」問題について振り返りを行った。GPT-5.1以降、モデルはますます回答にゴブリンや小妖精などの幻想生物の比喩を挿入する傾向が強まり、ユーザーからの苦情が絶えなかった。GPT-5.1のリリース後、ChatGPTの会話中で「goblin」という語の出現頻度は175%増加した。GPT-5.4に至ると、この問題は完全に爆発した。

根本原因はChatGPTの「書呆子」(Nerdy)人格設定機能にある。この人格のシステムプロンプトは、モデルに「言語の面白さを用いて真面目さを解消し」「世界の奇怪さを認め、それを楽しむ」ことを求めている。訓練時には、この人格スタイルを強化する報酬信号が、幻想生物の語彙を含む出力に高いスコアを付与し、76.2%のデータセットでこの偏りが観察された。

問題は、報酬信号が「書呆子」人格下でのみ有効であることだが、強化学習は学習した行動がトリガー条件内に留まることを保証しない。一度モデルが特定の条件下である話し方の習慣を報酬された場合、その習慣は後続の訓練を通じて他のシナリオに拡散していく。拡散の経路は明確で、報酬信号はゴブリンを含む出力を促し、その出力は後の監督微調整(SFT)データに現れ、モデルは次第にこの種の語彙を出すことに慣れ、正のフィードバックループを形成する。データを見ると、「書呆子」人格はChatGPT全体の返信のわずか2.5%を占めるが、ゴブリンの言及量の66.7%を貢献している。GPT-5.4では、「書呆子」人格のゴブリン出現率はGPT-5.2に比べて3881%急増した。

GPT-5.5は根本原因の調査前に訓練を開始しており、ゴブリンはすでにSFTデータに混入していた。OpenAIは3月に「書呆子」人格を廃止し、幻想生物に偏った報酬信号を除去し、訓練データをフィルタリングした。既にリリースされているGPT-5.5には、Codexの開発者向けプロンプトに抑制指令を追加した。OpenAIは今回の調査を通じて、新たなモデル行動監査ツールの開発を促した。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン