DPO 最近有什么新动态？

traeai 已收录 6 篇与 DPO 相关的内容。最新一篇是「How LLMs Learn to Be Helpful (RLHF vs DPO)」，由 ByteByteGo Newsletter 发布。

概念

DPO

别名：Direct Preference Optimization

直接偏好优化方法

已跟踪 6 条高相关材料

How LLMs Learn to Be Helpful (RLHF vs DPO)

ByteByteGo Newsletter · 8.5 分

本文对比RLHF与DPO两种方法，揭示大语言模型如何通过偏好学习提升帮助性，解析训练三阶段及技术局限性。

Kimi 2.7 is now fully trainable on Fireworks. Feed your data into Kimi and build a moat that beats ...

Fireworks AI(@FireworksAI_HQ) · 8.5 分

Fireworks AI 现在支持 Kimi 2.7 的完全可训练，提供低成本构建竞争模型的方案。

Direct Preference Optimization Beyond Chatbots

Hugging Face Blog · 8.5 分

本文介绍了DPO（Direct Preference Optimization）技术，它通过使用模型自身失败时产生的拒绝对来优化文本生成，从而显著减少了文本退化率。DPO在OCR（光学字符识别）任务中特别有效，因为它可以作为直接的失败模式缓解工具，而无需依赖于主观的人类判断。

ByteByteGo Newsletter7月15日2425 字 (约 10 分钟)

本文对比RLHF与DPO两种方法，揭示大语言模型如何通过偏好学习提升帮助性，解析训练三阶段及技术局限性。

入选理由：模型训练分三阶段：预训练、监督微调（SFT）、偏好教学（RLHF/DPO）

精选文章#LLM#RLHF#DPO#模型训练英文

Fireworks AI(@FireworksAI_HQ)6月18日123 字 (约 1 分钟)

Fireworks AI 现在支持 Kimi 2.7 的完全可训练，提供低成本构建竞争模型的方案。

入选理由：Kimi 2.7 可通过 Fireworks AI 进行 SFT、DPO 和 RL 训练。

精选推文#Kimi#Fireworks AI#模型训练#AI英文

Hugging Face Blog6月3日2903 字 (约 12 分钟)

入选理由：DPO技术通过使用模型自身失败时产生的拒绝对来优化文本生成，显著减少了文本退化率。

精选文章#Direct Preference Optimization#OCR#text generation#model training中文

Fireworks AI(@FireworksAI_HQ)5月4日304 字 (约 2 分钟)

Fireworks AI 平台正式支持智谱 GLM 5.1 模型，提供 SFT/DPO 微调能力、200K 超长上下文窗口，专为长周期智能体编程微调优化，RL 训练即将上线。

入选理由：GLM 5.1 已集成至 Fireworks AI 托管与 API 训练工作流

精选推文#GLM#Fireworks AI#大模型微调#SFT#DPO中文

Fireworks AI(@FireworksAI_HQ)5月4日315 字 (约 2 分钟)

Fireworks AI 宣布 Qwen 3.5 正式接入其训练平台，支持 SFT/DPO/RLHF 等全栈微调方式、256K 上下文及 LoRA/全参微调。

入选理由：Qwen 3.5 已上线 Fireworks AI 训练平台，覆盖托管与 API 两种工作流

精选推文#Qwen#Fireworks AI#大模型微调#LLM#Alibaba中英混合

Fireworks AI(@FireworksAI_HQ)6月10日115 字 (约 1 分钟)

Fireworks AI 扩展其训练平台，支持 Nemotron 3 Ultra 模型的微调和 DPO 训练。

入选理由：Nemotron 3 Ultra 现在支持 SFT 和 DPO 训练。

精选推文#Fireworks AI#Nemotron 3 Ultra#模型训练#SFT#DPO英文

回答基于：DPO 相关 6 条材料