OpenAI は GPT シリーズの「ゴブリン」問題を振り返り、オタク人格のシステムプロンプトと強化信号がモデルにファンタジー生物の語彙を好む傾向をもたらしていることを明らかにした；オタクは回答のわずか2.5%を占めるだけだが、ゴブリンに関する言及の66.7%に寄与している。GPT-5.4 はピーク時に急増し、5.5 では SFT データに既に含まれている。解決策として、3月にオタク人格をオフライン化し、関連報酬を削除、5.5 では Codex のプロンプトに抑制指令を追加し、新たなモデル行動監査ツールを開発した。

MeNews

2026-04-30 04:40:17

概要作成中

AIMPACT メッセージ、4 月 30 日（UTC+8）、動察 Beating 監測によると、OpenAI は GPT 系列の複数世代にわたる「ゴブリン」問題について振り返りを行った。GPT-5.1 以降、モデルは回答にファンタジー生物の比喩を挿入することをますます好むようになり、ユーザーからの苦情が絶えなかった。GPT-5.1 のリリース後、ChatGPT の会話中で「goblin」という語の出現頻度が 175% 増加した。GPT-5.4 まで進むと、問題は完全に爆発した。根本原因は ChatGPT の「書呆子」（Nerdy）人格カスタマイズ機能にある。この人格のシステムプロンプトは、モデルに「言語の面白さで真面目さを解消し」「世界の奇妙さを認め、それを楽しむ」ことを求めている。訓練時には、この人格スタイルを強化する報酬信号がファンタジー生物の語彙を含む出力に高いスコアを付けており、76.2% のデータセットでこの偏りが観察された。問題は、報酬信号が「書呆子」人格のみに作用するが、強化学習は学習した行動がトリガー条件内に留まることを保証しない点にある。一度モデルが特定の条件下である話し方の習慣を報酬された場合、その習慣は後続の訓練を通じて他のシナリオに拡散してしまう。拡散の経路は明白だ：報酬信号はゴブリンを含む出力を促し、その出力は後の監督微調整（SFT）のデータに現れ、モデルはこの種の語彙を出力することにますます慣れ、正のフィードバックループを形成する。データ上では、「書呆子」人格は ChatGPT 全体の返信の 2.5% に過ぎないが、ゴブリンの言及量の 66.7% を占めている。GPT-5.4 では、「書呆子」人格のゴブリン出現率は GPT-5.2 と比べて 3881% 増加した。GPT-5.5 では根本原因の調査前に訓練が始まり、ゴブリンはすでに SFT データに混入していた。OpenAI は 3 月に「書呆子」人格をオフライン化し、ファンタジー生物に偏った報酬信号を除去し、訓練データをフィルタリングした。既にリリースされている GPT-5.5 には、Codex の開発者向けプロンプトに抑制指令を追加した。OpenAI は今回の調査を通じて、新たなモデル行動監査ツールの開発を促したとしている。（出典：BlockBeats）

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。