AIMPACT メッセージ、4 月 30 日(UTC+8)、動察 Beating 監測によると、OpenAI は GPT 系列の複数世代にわたる「ゴブリン」問題について振り返りを行った。GPT-5.1 以降、モデルは回答にファンタジー生物の比喩を挿入することをますます好むようになり、ユーザーからの苦情が絶えなかった。GPT-5.1 のリリース後、ChatGPT の会話中で「goblin」という語の出現頻度が 175% 増加した。GPT-5.4 まで進むと、問題は完全に爆発した。 根本原因は ChatGPT の「書呆子」(Nerdy)人格カスタマイズ機能にある。この人格のシステムプロンプトは、モデルに「言語の面白さで真面目さを解消し」「世界の奇妙さを認め、それを楽しむ」ことを求めている。訓練時には、この人格スタイルを強化する報酬信号がファンタジー生物の語彙を含む出力に高いスコアを付けており、76.2% のデータセットでこの偏りが観察された。 問題は、報酬信号が「書呆子」人格のみに作用するが、強化学習は学習した行動がトリガー条件内に留まることを保証しない点にある。一度モデルが特定の条件下である話し方の習慣を報酬された場合、その習慣は後続の訓練を通じて他のシナリオに拡散してしまう。拡散の経路は明白だ:報酬信号はゴブリンを含む出力を促し、その出力は後の監督微調整(SFT)のデータに現れ、モデルはこの種の語彙を出力することにますます慣れ、正のフィードバックループを形成する。データ上では、「書呆子」人格は ChatGPT 全体の返信の 2.5% に過ぎないが、ゴブリンの言及量の 66.7% を占めている。GPT-5.4 では、「書呆子」人格のゴブリン出現率は GPT-5.2 と比べて 3881% 増加した。GPT-5.5 では根本原因の調査前に訓練が始まり、ゴブリンはすでに SFT データに混入していた。OpenAI は 3 月に「書呆子」人格をオフライン化し、ファンタジー生物に偏った報酬信号を除去し、訓練データをフィルタリングした。既にリリースされている GPT-5.5 には、Codex の開発者向けプロンプトに抑制指令を追加した。OpenAI は今回の調査を通じて、新たなモデル行動監査ツールの開発を促したとしている。(出典:BlockBeats)
OpenAIは「ゴブリン」がどこから来たのかを解明した:性格報酬信号が全ての訓練パイプラインを汚染していた
AIMPACT メッセージ、4 月 30 日(UTC+8)、動察 Beating 監測によると、OpenAI は GPT 系列の複数世代にわたる「ゴブリン」問題について振り返りを行った。GPT-5.1 以降、モデルは回答にファンタジー生物の比喩を挿入することをますます好むようになり、ユーザーからの苦情が絶えなかった。GPT-5.1 のリリース後、ChatGPT の会話中で「goblin」という語の出現頻度が 175% 増加した。GPT-5.4 まで進むと、問題は完全に爆発した。 根本原因は ChatGPT の「書呆子」(Nerdy)人格カスタマイズ機能にある。この人格のシステムプロンプトは、モデルに「言語の面白さで真面目さを解消し」「世界の奇妙さを認め、それを楽しむ」ことを求めている。訓練時には、この人格スタイルを強化する報酬信号がファンタジー生物の語彙を含む出力に高いスコアを付けており、76.2% のデータセットでこの偏りが観察された。 問題は、報酬信号が「書呆子」人格のみに作用するが、強化学習は学習した行動がトリガー条件内に留まることを保証しない点にある。一度モデルが特定の条件下である話し方の習慣を報酬された場合、その習慣は後続の訓練を通じて他のシナリオに拡散してしまう。拡散の経路は明白だ:報酬信号はゴブリンを含む出力を促し、その出力は後の監督微調整(SFT)のデータに現れ、モデルはこの種の語彙を出力することにますます慣れ、正のフィードバックループを形成する。データ上では、「書呆子」人格は ChatGPT 全体の返信の 2.5% に過ぎないが、ゴブリンの言及量の 66.7% を占めている。GPT-5.4 では、「書呆子」人格のゴブリン出現率は GPT-5.2 と比べて 3881% 増加した。GPT-5.5 では根本原因の調査前に訓練が始まり、ゴブリンはすでに SFT データに混入していた。OpenAI は 3 月に「書呆子」人格をオフライン化し、ファンタジー生物に偏った報酬信号を除去し、訓練データをフィルタリングした。既にリリースされている GPT-5.5 には、Codex の開発者向けプロンプトに抑制指令を追加した。OpenAI は今回の調査を通じて、新たなモデル行動監査ツールの開発を促したとしている。(出典:BlockBeats)