OpenAI 公布回顾 GPT 系列的“哥布林”问题，源于书呆子人格的系统提示和强化信号让模型偏爱含奇幻生物词汇；书呆子仅占 2.5% 回复却贡献 66.7% 哥布林提及，GPT-5.4 峰值暴涨，5.5 已进入 SFT 数据。为解决，3 月下线书呆子人格，移除相关奖励，5.5 对 Codex 提示加入抑制指令，并开发新的模型行为审计工具。

ME News

2026-04-30 04:40:17

摘要生成中

AIMPACT 消息，4 月 30 日（UTC+8），据动察 Beating 监测，OpenAI 发文复盘了困扰 GPT 系列多代的「哥布林」问题。从 GPT-5.1 起，模型越来越爱在回答里塞哥布林、小妖精之类的奇幻生物比喻，用户投诉不断。GPT-5.1 上线后，ChatGPT 对话中出现「goblin」一词的频率上升了 175%。到 GPT-5.4，问题彻底爆发。根源在 ChatGPT 的「书呆子」（Nerdy）人格定制功能。这个人格的系统提示词要求模型「用语言的趣味性消解一本正经」「承认世界的怪异并享受它」。训练时，用于强化这个人格风格的奖励信号对含有奇幻生物词汇的输出打了更高分，76.2% 的数据集中都能观察到这种偏向。问题是奖励信号只在「书呆子」人格下生效，但强化学习不保证学到的行为只留在触发条件里。一旦模型在某个条件下被奖励了某种说话习惯，这种习惯就会通过后续训练扩散到其他场景。扩散路径很清晰：奖励信号鼓励了带哥布林的输出，这些输出出现在后续的监督微调（SFT）数据里，模型越来越习惯产出这类词，形成正反馈循环。数据上看，「书呆子」人格只占 ChatGPT 全部回复的 2.5%，却贡献了 66.7% 的哥布林提及量。GPT-5.4 中「书呆子」人格的哥布林出现率较 GPT-5.2 暴涨 3881%。 GPT-5.5 在根因查明前就开始训练了，哥布林已经混进了 SFT 数据。OpenAI 在 3 月下线了「书呆子」人格，移除了偏向奇幻生物的奖励信号并过滤了训练数据。对已上线的 GPT-5.5，则在 Codex 的开发者提示词中加入抑制指令。OpenAI 称这次调查催生了一套新的模型行为审计工具。（来源：BlockBeats）

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
WCTC交易王PK
39.73万热度
#
美联储利率不变但内部分歧加剧
1.82万热度
#
Polymarket每日热点
72.12万热度
#
比特币现货交易量新低
16266.67万热度
#
油价突破110美元
87.16万热度

OpenAI查清了「哥布林」从哪来的：一个性格奖励信号污染了整条训练流水线

热门话题

WCTC交易王PK

美联储利率不变但内部分歧加剧

Polymarket每日热点

比特币现货交易量新低

油价突破110美元

置顶