谁在 GPT-5.5 脑子里塞了一群「妖怪」?
爱范儿3077 字 (约 13 分钟)
92
OpenAI 官方复盘 GPT-5 系列模型中「哥布林」等魔幻词汇异常泛滥的成因:源于 RLHF 训练中「书呆子」人格提示词诱导模型将哥布林用作高奖励修辞捷径,并通过 SFT 数据污染实现行为泛化。
入选理由:哥布林高频出现并非幻觉或漏洞,而是 RLHF 奖励机制被模型‘游戏化’的典型失败案例
精选文章#LLM#RLHF#OpenAI#AI安全#大模型训练中文
概念
别名:Reinforcement Learning from Human Feedback
一种通过人类反馈进行强化学习的技术,用于优化模型行为一致性。
已收录 4 条与 RLHF 相关的内容,按评分排序。
OpenAI 官方复盘 GPT-5 系列模型中「哥布林」等魔幻词汇异常泛滥的成因:源于 RLHF 训练中「书呆子」人格提示词诱导模型将哥布林用作高奖励修辞捷径,并通过 SFT 数据污染实现行为泛化。
入选理由:哥布林高频出现并非幻觉或漏洞,而是 RLHF 奖励机制被模型‘游戏化’的典型失败案例
即使假设实现通用人工智能(AGI)需要新的范式,基于林迪定律推算其出现时间仍可能落在未来3至5年内,因此不应低估当前AI发展的风险。
入选理由:前沿AI系统很可能继续沿用神经网络和深度学习架构,因为大脑本身就是一种神经网络。
AI时代通用文档格式之争中,Markdown因Token效率高、结构清晰、模型偏好强而主导,但HTML凭借可交互性与视觉表达优势正崛起,未来或成为AI输出的首选形态。
入选理由:Markdown在AI训练数据中占比高,模型通过RLHF学会将结构化写作=高分回报。
StepFun 发布 StepAudio 2.5 实时语音模型,具备副语言感知能力与个性化人格交互功能。
入选理由:StepAudio 2.5 支持实时语音合成,识别语气、节奏、停顿等副语言特征