1、Most RL stacks are built for one modality. UniRL applies a single post-training loop — generate → ...

Hunyuan(@TXhunyuan)

Hunyuan(@TXhunyuan)2026年6月9日

1、Most RL stacks are built for one modality. UniRL applies a single post-training loop — generate → ...

8.5Score

TL;DR · AI 摘要

UniRL 是一个统一的强化学习框架，支持多种模态和模型，通过单一训练循环实现跨模型家族的训练。

核心要点

UniRL 使用单一训练循环（generate → score → advantage → update → sync）支持多种模态和模型。
FlowDPPO 和 DRPO 是 UniRL 中的两个原创算法，分别用于流模型和大语言模型的强化学习。
UniRL 支持三种部署模式，可通过单一配置开关进行调整。

结构提纲

按章节快速跳转。

§引言
当前大多数强化学习框架仅适用于单一模态，而 UniRL 通过统一的训练循环支持多种模态。
·UniRL 的训练循环
UniRL 使用 generate → score → advantage → update → sync 的单一训练循环，适用于多种模型家族。
·模型和算法的独立性
模型和算法是两个独立的轴，UniRL 的覆盖范围是模型 × 算法的乘积，而非固定配方。
·支持的模态和模型
UniRL 支持文本→图像、文本/图像→视频、视觉-语言、文本-only LLM 和 VLM 等多种模态和模型。
·可扩展性
UniRL 支持可插拔的 rollout 引擎和三种部署模式，可通过单一配置开关进行调整。
·原创算法
UniRL 引入了 FlowDPPO 和 DRPO 两种原创算法，分别用于流模型和大语言模型的强化学习。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

UniRL 框架
- 训练循环
  - generate → score → advantage → update → sync
  - 跨模型家族
- 支持的模态
  - 文本→图像
  - 文本/图像→视频
  - 视觉-语言
  - 文本-only LLM 和 VLM
- 原创算法
  - FlowDPPO
  - DRPO

金句 / Highlights

值得收藏与分享的关键句。

UniRL 使用单一训练循环（generate → score → advantage → update → sync）支持多种模态和模型。
— 第 1 段
⬇︎ 下载 PNG 𝕏 分享到 X
FlowDPPO 和 DRPO 是 UniRL 中的两个原创算法，分别用于流模型和大语言模型的强化学习。
— 第 4 段
⬇︎ 下载 PNG 𝕏 分享到 X
UniRL 支持三种部署模式，可通过单一配置开关进行调整。
— 第 3 段
⬇︎ 下载 PNG 𝕏 分享到 X

#强化学习#UniRL#Tencent#AI框架

打开原文

腾讯混元在 X 上的发言：“1、大多数强化学习框架仅适用于单一模态。UniRL 在模型家族中应用了一个统一的训练循环 —— 生成 → 评分 → 优势 → 更新 → 同步。模型和算法是两个独立的维度，因此你的覆盖范围是模型 × 算法的乘积，而不是固定的配方” / X

Tencent Hy

@TencentHunyuan

1、大多数强化学习框架仅适用于单一模态。UniRL 在模型家族中应用了一个统一的训练循环 —— 生成 → 评分 → 优势 → 更新 → 同步。模型和算法是两个独立的维度，因此你的覆盖范围是模型 × 算法的乘积，而不是固定的配方菜单。2、一个循环，适用于所有模态：文本→图像，文本/图像→视频，视觉-语言，仅文本的大型语言模型（LLM）和视觉-语言模型（VLM），LLM→扩散提示增强器，以及统一的自回归+扩散生成（Hunyuan-Image 3 和 Bagel）——这是一个单一用途的强化学习仓库都无法表达的模型类别。3、专为扩展而设计：一个类型化合同背后可插拔的 rollout 引擎（训练端 / SGLang / vLLM-Omni），FSDP2 分片，以及通过一个配置旋钮即可实现的三种部署模式。4、发布中包含两个团队原创算法：FlowDPPO：基于精确散度的置信区域掩码的流/扩散模型策略优化（详见我们的论文：Flow-DPPO: Divergence Proximal Policy Optimization for Flow Matching Models

github.com/Tencent-Hunyua…

) DRPO：使用平滑、优势加权二次正则化器的大型语言模型强化学习（详见我们的论文：Rethinking the Divergence Regularization in LLM RL [

arxiv.org/abs/2606.09821

])

UniRL/FlowDPPO/HY_FlowDPPO.pdf at main · Tencent-Hunyuan/UniRL

来自 github.com

2026年6月9日下午12:03

1.5K

浏览量

1

8

2