🚀Introducing UniRL, an RL infra for unified multimodal models. Together with two new RL algorithms:...
腾讯推出 UniRL,一个统一的强化学习框架,支持多种多模态模型,并引入 DRPO 和 Flow-DPPO 两种新算法。
入选理由:UniRL 是一个统一的强化学习基础设施,适用于扩散模型、流匹配模型、LLMs/VLMs 和统一多模态模型。
产品
腾讯推出的统一强化学习框架,支持多种多模态模型训练。
已跟踪 2 条高相关材料
最近变化
2026-06-09 · UniRL 使用单一训练循环(generate → score → advantage → update → sync)支持多种模态和模型。
为什么值得关注
UniRL 被反复提及时,通常意味着它正在影响产品路线、开发者工作流或 AI 产业判断。这个页面把分散材料合并成一个可持续更新的观察入口。
1、Most RL stacks are built for one modality. UniRL applies a single post-training loop — generate → ...
Hunyuan(@TXhunyuan) · 8.5 分
UniRL 是一个统一的强化学习框架,支持多种模态和模型,通过单一训练循环实现跨模型家族的训练。
🚀Introducing UniRL, an RL infra for unified multimodal models. Together with two new RL algorithms:...
Hunyuan(@TXhunyuan) · 8.5 分
腾讯推出 UniRL,一个统一的强化学习框架,支持多种多模态模型,并引入 DRPO 和 Flow-DPPO 两种新算法。
已收录 2 条与 UniRL 相关的内容,按评分排序。
腾讯推出 UniRL,一个统一的强化学习框架,支持多种多模态模型,并引入 DRPO 和 Flow-DPPO 两种新算法。
入选理由:UniRL 是一个统一的强化学习基础设施,适用于扩散模型、流匹配模型、LLMs/VLMs 和统一多模态模型。
UniRL 是一个统一的强化学习框架,支持多种模态和模型,通过单一训练循环实现跨模型家族的训练。
入选理由:UniRL 使用单一训练循环(generate → score → advantage → update → sync)支持多种模态和模型。