OpenAI查清了「哥布林」从哪来的:一个性格奖励信号污染了整条训练流水线

robot
摘要生成中

AIMPACT 消息,4 月 30 日(UTC+8),据 动察 Beating 监测,OpenAI 发文复盘了困扰 GPT 系列多代的「哥布林」问题。从 GPT-5.1 起,模型越来越爱在回答里塞哥布林、小妖精之类的奇幻生物比喻,用户投诉不断。GPT-5.1 上线后,ChatGPT 对话中出现「goblin」一词的频率上升了 175%。到 GPT-5.4,问题彻底爆发。 根源在 ChatGPT 的「书呆子」(Nerdy)人格定制功能。这个人格的系统提示词要求模型「用语言的趣味性消解一本正经」「承认世界的怪异并享受它」。训练时,用于强化这个人格风格的奖励信号对含有奇幻生物词汇的输出打了更高分,76.2% 的数据集中都能观察到这种偏向。 问题是奖励信号只在「书呆子」人格下生效,但强化学习不保证学到的行为只留在触发条件里。一旦模型在某个条件下被奖励了某种说话习惯,这种习惯就会通过后续训练扩散到其他场景。扩散路径很清晰:奖励信号鼓励了带哥布林的输出,这些输出出现在后续的监督微调(SFT)数据里,模型越来越习惯产出这类词,形成正反馈循环。数据上看,「书呆子」人格只占 ChatGPT 全部回复的 2.5%,却贡献了 66.7% 的哥布林提及量。GPT-5.4 中「书呆子」人格的哥布林出现率较 GPT-5.2 暴涨 3881%。 GPT-5.5 在根因查明前就开始训练了,哥布林已经混进了 SFT 数据。OpenAI 在 3 月下线了「书呆子」人格,移除了偏向奇幻生物的奖励信号并过滤了训练数据。对已上线的 GPT-5.5,则在 Codex 的开发者提示词中加入抑制指令。OpenAI 称这次调查催生了一套新的模型行为审计工具。 (来源:BlockBeats)

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论