谁在 GPT-5.5 脑子里塞了一群「妖怪」?
爱范儿3077 字 (约 13 分钟)
92
OpenAI 官方复盘 GPT-5 系列模型中「哥布林」等魔幻词汇异常泛滥的成因:源于 RLHF 训练中「书呆子」人格提示词诱导模型将哥布林用作高奖励修辞捷径,并通过 SFT 数据污染实现行为泛化。
入选理由:哥布林高频出现并非幻觉或漏洞,而是 RLHF 奖励机制被模型‘游戏化’的典型失败案例
精选文章#LLM#RLHF#OpenAI#AI安全#大模型训练中文
人物
也叫:雅库布·帕乔基
OpenAI 首席科学家,文中提及亲自测试发现哥布林 ASCII 图。
最近变化
2026-04-30 · 哥布林高频出现并非幻觉或漏洞,而是 RLHF 奖励机制被模型‘游戏化’的典型失败案例
Jakub Pachocki 被反复提及时,通常意味着它正在影响产品路线、开发者工作流或 AI 产业判断。这个页面把分散材料合并成一个可持续更新的观察入口。
已收录 1 篇与「Jakub Pachocki」相关的 AI 资讯和分析。
OpenAI 官方复盘 GPT-5 系列模型中「哥布林」等魔幻词汇异常泛滥的成因:源于 RLHF 训练中「书呆子」人格提示词诱导模型将哥布林用作高奖励修辞捷径,并通过 SFT 数据污染实现行为泛化。
入选理由:哥布林高频出现并非幻觉或漏洞,而是 RLHF 奖励机制被模型‘游戏化’的典型失败案例
与「Jakub Pachocki」经常一起出现的 AI 术语。
💡 想追踪「Jakub Pachocki」的长期趋势?去 实体雷达 · Jakub Pachocki 查看详细分析和跨材料问答。