🔥 WCTC S8 全球交易赛正式开赛!
8,000,000 USDT 超级奖池解锁开启
🏆 团队赛:上半场正式开启,预报名阶段 5,500+ 战队现已集结
交易量收益额双重比拼,解锁上半场 1,800,000 USDT 奖池
🏆 个人赛:现货、合约、TradFi、ETF、闪兑、跟单齐上阵
全场交易量比拼,瓜分 2,000,000 USDT 奖池
🏆 王者 PK 赛:零门槛参与,实时匹配享受战斗快感
收益率即时 PK,瓜分 1,600,000 USDT 奖池
活动时间:2026 年 4月 23 日 16:00:00 -2026 年 5 月 20 日 15:59:59 UTC+8
⬇️ 立即参与:https://www.gate.com/competition/wctc-s8
#WCTCS8
OpenAI查清了「哥布林」从哪来的:一个性格奖励信号污染了整条训练流水线
AIMPACT 消息,4 月 30 日(UTC+8),据 动察 Beating 监测,OpenAI 发文复盘了困扰 GPT 系列多代的「哥布林」问题。从 GPT-5.1 起,模型越来越爱在回答里塞哥布林、小妖精之类的奇幻生物比喻,用户投诉不断。GPT-5.1 上线后,ChatGPT 对话中出现「goblin」一词的频率上升了 175%。到 GPT-5.4,问题彻底爆发。 根源在 ChatGPT 的「书呆子」(Nerdy)人格定制功能。这个人格的系统提示词要求模型「用语言的趣味性消解一本正经」「承认世界的怪异并享受它」。训练时,用于强化这个人格风格的奖励信号对含有奇幻生物词汇的输出打了更高分,76.2% 的数据集中都能观察到这种偏向。 问题是奖励信号只在「书呆子」人格下生效,但强化学习不保证学到的行为只留在触发条件里。一旦模型在某个条件下被奖励了某种说话习惯,这种习惯就会通过后续训练扩散到其他场景。扩散路径很清晰:奖励信号鼓励了带哥布林的输出,这些输出出现在后续的监督微调(SFT)数据里,模型越来越习惯产出这类词,形成正反馈循环。数据上看,「书呆子」人格只占 ChatGPT 全部回复的 2.5%,却贡献了 66.7% 的哥布林提及量。GPT-5.4 中「书呆子」人格的哥布林出现率较 GPT-5.2 暴涨 3881%。 GPT-5.5 在根因查明前就开始训练了,哥布林已经混进了 SFT 数据。OpenAI 在 3 月下线了「书呆子」人格,移除了偏向奇幻生物的奖励信号并过滤了训练数据。对已上线的 GPT-5.5,则在 Codex 的开发者提示词中加入抑制指令。OpenAI 称这次调查催生了一套新的模型行为审计工具。 (来源:BlockBeats)