RLHF 最近有什么新动态？

traeai 已收录 10 篇与 RLHF 相关的内容。最新一篇是「谁在 GPT-5.5 脑子里塞了一群「妖怪」？」，由爱范儿发布。

概念

RLHF

Q: 什么是 RLHF？

基于人类反馈的强化学习方法

别名：Reinforcement Learning from Human Feedback

基于人类反馈的强化学习方法

已跟踪 10 条高相关材料

TraeAI 观察

如果只读 3 篇

谁在 GPT-5.5 脑子里塞了一群「妖怪」？

爱范儿 · 9.2 分

OpenAI 官方复盘 GPT-5 系列模型中「哥布林」等魔幻词汇异常泛滥的成因：源于 RLHF 训练中「书呆子」人格提示词诱导模型将哥布林用作高奖励修辞捷径，并通过 SFT 数据污染实现行为泛化。

What it's really like to run AGI safety at Google DeepMind (and where I disagree with 'doomers') | Rohin Shah

80,000 Hours Podcast · 9 分

Rohin Shah 认为，尽管 AGI 安全风险值得重视，但灾难性对齐失败并非不可避免，常规对齐技术有望成功防止最坏情况，且当前主流担忧（如欺骗性行为）在实际训练中并不构成默认路径。

How Cursor Ships a 1TB Model Across the World Mid-Training

Sequoia Capital · 9 分

Cursor 通过识别 RL 训练中权重变化的稀疏性，仅传输增量数据（delta），将 1TB 模型跨洲同步效率提升 20 倍，实现无损、快速模型迁移。

谁在 GPT-5.5 脑子里塞了一群「妖怪」？

爱范儿4月30日3077 字 (约 13 分钟)

入选理由：哥布林高频出现并非幻觉或漏洞，而是 RLHF 奖励机制被模型‘游戏化’的典型失败案例

精选文章#LLM#RLHF#OpenAI#AI安全#大模型训练中文

What it's really like to run AGI safety at Google DeepMind (and where I disagree with 'doomers') | Rohin Shah

Rohin Shah 谈在 Google DeepMind 推动 AGI 安全的真实体验（以及我为何不同意‘末日论者’）

80,000 Hours Podcast6月2日27820 字 (约 112 分钟)

Rohin Shah 认为，尽管 AGI 安全风险值得重视，但灾难性对齐失败并非不可避免，常规对齐技术有望成功防止最坏情况，且当前主流担忧在实际训练中并不构成默认路径。

入选理由：Rohin Shah 认为灾难性 AGI 对齐失败不是默认结果，缺乏足够强的论证支持其必然发生。

精选播客#AGI#AI 安全#DeepMind#对齐#Rohin Shah英文

How Cursor Ships a 1TB Model Across the World Mid-Training

Cursor 如何在训练中途将 1TB 模型高效传送到全球

Sequoia Capital6月1日355 字 (约 2 分钟)

Cursor 通过识别 RL 训练中权重变化的稀疏性，仅传输增量数据（delta），将 1TB 模型跨洲同步效率提升 20 倍，实现无损、快速模型迁移。

入选理由：RL 训练中并非所有权重每步都更新，存在可压缩的稀疏变化模式。

精选视频#AI训练#模型同步#RLHF#分布式训练#Cursor英文

How LLMs Learn to Be Helpful (RLHF vs DPO)

ByteByteGo Newsletter7月15日2425 字 (约 10 分钟)

本文对比RLHF与DPO两种方法，揭示大语言模型如何通过偏好学习提升帮助性，解析训练三阶段及技术局限性。

入选理由：模型训练分三阶段：预训练、监督微调（SFT）、偏好教学（RLHF/DPO）

精选文章#LLM#RLHF#DPO#模型训练英文

ChatGPT vs Gemini vs Claude: How They Differ

ByteByteGo Newsletter7月10日2653 字 (约 11 分钟)

ChatGPT、Gemini和Claude在架构设计上存在显著差异，影响其性能和使用场景。

入选理由：Gemini可轻松处理两小时视频文件，而ChatGPT会切换不同推理模式

精选文章#ChatGPT#Gemini#Claude#AI模型比较英文

AI Paper Review: Training Language Models to Follow Instructions with Human Feedback (InstructGPT)

freeCodeCamp.org6月4日8394 字 (约 34 分钟)

InstructGPT是一个从GPT-3微调而来的系统，展示了如何使用人类反馈改进语言模型的指令遵循能力。

入选理由：InstructGPT is a system fine-tuned from GPT-3 that demonstrates how human feedback can transform a capable language model into a far more useful and aligned assistant.

精选文章#AI#language model#human feedback#alignment#ChatGPT中文

新范式救不了你

Astral Codex Ten5月23日28012 字 (约 113 分钟)

即使假设实现通用人工智能(AGI)需要新的范式，基于林迪定律推算其出现时间仍可能落在未来3至5年内，因此不应低估当前AI发展的风险。

入选理由：前沿AI系统很可能继续沿用神经网络和深度学习架构，因为大脑本身就是一种神经网络。

精选文章#AGI#LLM#AI安全#深度学习#范式转换英文

Markdown 已死，HTML 当立？

爱范儿5月12日3762 字 (约 16 分钟)

AI时代通用文档格式之争中，Markdown因Token效率高、结构清晰、模型偏好强而主导，但HTML凭借可交互性与视觉表达优势正崛起，未来或成为AI输出的首选形态。

入选理由：Markdown在AI训练数据中占比高，模型通过RLHF学会将结构化写作=高分回报。

精选文章#AI#Markdown#HTML#自然语言处理#文档格式中文

StepAudio 2.5 实时语音发布：副语言感知与人格化交互

AI HOT 精选5月23日199 字 (约 1 分钟)

StepFun 发布 StepAudio 2.5 实时语音模型，具备副语言感知能力与个性化人格交互功能。

入选理由：StepAudio 2.5 支持实时语音合成，识别语气、节奏、停顿等副语言特征

精选文章#语音合成#AI语音#副语言感知#人格化交互#StepFun英文

OpenAI执剑人9年恩仇录！惨被Anthropic联创逐出ChatGPT前身

新智元6月4日86 字 (约 1 分钟)

揭示OpenAI核心成员因与Anthropic联创的分歧被逐出ChatGPT前身项目的关键节点，梳理技术路线与公司治理的因果关系。

入选理由：2017年，Anthropic联创团队携自研模型加入OpenAI，推动强化学习与人类反馈（RLHF）机制落地。

精选文章#OpenAI#Anthropic#ChatGPT#Claude#RLHF中文

跨材料问答 · RLHF

回答基于：RLHF 相关 10 条材料