1、Most RL stacks are built for one modality. UniRL applies a single post-training loop — generate → ...
TL;DR · AI 摘要
UniRL 是一个统一的强化学习框架,支持多种模态和模型,通过单一训练循环实现跨模型家族的训练。
核心要点
- UniRL 使用单一训练循环(generate → score → advantage → update → sync)支持多种模态和模型。
- FlowDPPO 和 DRPO 是 UniRL 中的两个原创算法,分别用于流模型和大语言模型的强化学习。
- UniRL 支持三种部署模式,可通过单一配置开关进行调整。
结构提纲
按章节快速跳转。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- UniRL 框架
- 训练循环
- generate → score → advantage → update → sync
- 跨模型家族
- 支持的模态
- 文本→图像
- 文本/图像→视频
- 视觉-语言
- 文本-only LLM 和 VLM
- 原创算法
- FlowDPPO
- DRPO
金句 / Highlights
值得收藏与分享的关键句。
UniRL 使用单一训练循环(generate → score → advantage → update → sync)支持多种模态和模型。
FlowDPPO 和 DRPO 是 UniRL 中的两个原创算法,分别用于流模型和大语言模型的强化学习。
UniRL 支持三种部署模式,可通过单一配置开关进行调整。
腾讯混元在 X 上的发言:“1、大多数强化学习框架仅适用于单一模态。UniRL 在模型家族中应用了一个统一的训练循环 —— 生成 → 评分 → 优势 → 更新 → 同步。模型和算法是两个独立的维度,因此你的覆盖范围是模型 × 算法的乘积,而不是固定的配方” / X
Tencent Hy
@TencentHunyuan
回复
1、大多数强化学习框架仅适用于单一模态。UniRL 在模型家族中应用了一个统一的训练循环 —— 生成 → 评分 → 优势 → 更新 → 同步。模型和算法是两个独立的维度,因此你的覆盖范围是模型 × 算法的乘积,而不是固定的配方菜单。2、一个循环,适用于所有模态:文本→图像,文本/图像→视频,视觉-语言,仅文本的大型语言模型(LLM)和视觉-语言模型(VLM),LLM→扩散提示增强器,以及统一的自回归+扩散生成(Hunyuan-Image 3 和 Bagel)——这是一个单一用途的强化学习仓库都无法表达的模型类别。3、专为扩展而设计:一个类型化合同背后可插拔的 rollout 引擎(训练端 / SGLang / vLLM-Omni),FSDP2 分片,以及通过一个配置旋钮即可实现的三种部署模式。4、发布中包含两个团队原创算法:FlowDPPO:基于精确散度的置信区域掩码的流/扩散模型策略优化(详见我们的论文:Flow-DPPO: Divergence Proximal Policy Optimization for Flow Matching Models
github.com/Tencent-Hunyua…
) DRPO:使用平滑、优势加权二次正则化器的大型语言模型强化学习(详见我们的论文:Rethinking the Divergence Regularization in LLM RL [
arxiv.org/abs/2606.09821
])
UniRL/FlowDPPO/HY_FlowDPPO.pdf at main · Tencent-Hunyuan/UniRL
来自 github.com
2026年6月9日 下午12:03
1.5K
浏览量
1
8
2