The Open Source Community is backing OpenEnv for Agentic RL
TL;DR · AI 摘要
The Open Source Community is backing OpenEnv for Agentic RL Back to Articles -1 0 Published June 8, 2026 Update on GitHu...
核心要点
- 主题聚焦:The Open Source Community is backing OpenEnv for
- 来源:Hugging Face Blog,建议结合原文判断细节。
- AI 分析暂不可用,本条为保底评分与摘要。
开源社区支持 OpenEnv 用于智能体强化学习
返回文章列表
[-1
]
[0
发布于 2026 年 6 月 8 日
GitHub 上的更新
点赞
18
[
- +12
Ben Burtenshaw
burtenshaw
关注
Joseph Spisak
spisakjo
Lysandre
Davide Testuggine
darktex
Will Brown
willcb
Chris Wing
cwing-nv
Daniel (Unsloth)
danielhanchen
Andrew Zhou
andrewzhou
Michael Han
shimmyshimmer
Hamid Shojanazeri
Hamid-Nazeri
Sanyam Bhutani
Sanyam
Zach Wentz
zkwentz
Emre Guven
emre0
Lewis Tunstall
lewtun
Sergio Paniego
sergiopaniego
OpenEnv 是一个用于创建智能体执行环境的工具,例如终端、浏览器或任何智能体可以交互的东西。今天,我们非常高兴地宣布,OpenEnv 正变得越来越开放,以使训练智能体的未来更加开源。
从今天起,OpenEnv 将由一个委员会协调,该委员会目前包括 Meta-PyTorch、Reflection、Unsloth、Modal、Prime Intellect、Nvidia、Mercor、Fleet AI 和 Hugging Face。OpenEnv 现在位于 huggingface/OpenEnv。
OpenEnv 项目得到了人工智能生态系统中一些领先组织的支持和采用,包括 PyTorch 基金会、vLLM、SkyRL(UCB)、Lightning AI、Axolotl AI、斯坦福大学扩展智能实验室、Mithril、OpenMined、Scaler AI 实验室、Scale AI、Patronus AI、Surge AI、Halluminate、Turing、Scorecard 和 Snorkel AI。
为什么我们需要 OpenEnv 来训练开源智能体
像 Claude Code、Codex、OpenClaw 和 Hermes 这样的智能体工具一直在不断改进。它们改进的一个原因是,像 GPT-5.5 和 Opus 4.8 这样的模型被训练为使用各自的工具。
我们也希望开源模型能获得这些优势:训练能够有效使用工具的本地模型,并通过专门化模型来完成特定任务,从而节省计算资源。
为什么我们需要(甚至)更加开放
前沿实验室训练的模型和工具,大部分情况下是紧密配合的。模型被训练为使用工具,并针对其特性进行优化。模型在一定程度上可以超越这些工具进行泛化,但没有什么能比得上训练的效率。
在开源领域,情况并非如此。开发者可以使用任何工具、任何模型、任何推理引擎,用于他们认为有价值的任何用例。这对社区来说是根本性的,但这也是一种需要基础设施和工具来解决的挑战。
这就是 OpenEnv 的作用。它是一个库,用于在工具、环境和训练器之间进行接口,适用于任何模型。为了使这个库能够持续发展,它需要由所有主要利益相关者共同拥有。
一个协议层,而不是奖励框架
随着治理结构的变化,我们正在明确 OpenEnv 的定位。
在最近的版本中,OpenEnv 已经成为强化学习环境的互操作性层。它的任务是标准化环境的发布、部署和被智能体消费的方式。它不会规定奖励如何定义,也不会规定训练循环如何运作。奖励定义、评分标准和训练器特定的逻辑应属于专门处理这些任务的库。OpenEnv 是它们都可以连接的通用接口。
实际上这意味着:
一个接口,多个环境,所有环境都提供熟悉的 Gymnasium 风格的 API( reset()、step()、state()),运行在客户端/服务器架构上。能够使用 OpenEnv 的训练器可以驱动任何兼容的环境,而无需定制代码。
熟悉的协议和标准的打包方式。环境通过标准协议(如 HTTP 和 WebSocket)进行服务,并使用 Docker 进行打包。MCP 是一等公民,因此 OpenEnv 环境可以立即与 MCP 服务器兼容,并且在模拟(训练/评估)和生产模式下表现一致。
跨环境库的互操作性。你可以在不同的生态系统(验证器、Harbor 等)中定义和使用环境,并选择你自己的基础设施和中心。OpenEnv 是它们的部署和接口层,而不是它们的竞争对手。
下一步
在未来几个月里,我们将专注于使 OpenEnv 从一个快速增长的项目转变为一个可靠的标准:
- 通过数据集定义任务集:将环境任务连接到 Hugging Face 数据集,使环境和基准能够清晰地组合(RFC 006)。
- 外部奖励:允许你在已经使用的任何库中定义奖励,OpenEnv 作为部署层(RFC 007)。
- 持续的 Harness 集成:对代理式 Harness 提供一等支持。
- 端到端示例:在 TRL、Unsloth 等中提供完整的训练和评估流程。
- 自动验证:衡量环境的质量和对模型学习的贡献。这将为社区提供一种可扩展的方式来评估他们的环境并提高质量(可以想象黑客马拉松!)(RFC 008)。
参与进来
OpenEnv 的设计以社区为中心,目前还处于早期阶段——预计会有粗糙的边缘,帮助我们将其变得平滑。查看代码和 RFCs:github.com/huggingface/OpenEnv
感谢所有帮助实现这一转变的人。让我们一起构建开源代理式强化学习的通用基础。
更多文章来自我们的博客
公告
开源
社区
OpenEnv 实践:在真实环境中评估工具使用代理
- +1
33
2026年2月12日
共同构建开放代理生态系统:介绍 OpenEnv
- +6
162
2025年10月23日
社区
编辑
预览
通过拖拽到文本输入框、粘贴或
点击此处
上传图片、音频和视频。
点击此处上传图片
评论
· 注册或登录以评论