The Open Source Community is backing OpenEnv for Agentic RL

Hugging Face Blog

Hugging Face Blog2026年6月8日

The Open Source Community is backing OpenEnv for Agentic RL

6.9内容质量

TL;DR · AI 摘要

The Open Source Community is backing OpenEnv for Agentic RL Back to Articles -1 0 Published June 8, 2026 Update on GitHu...

核心要点

主题聚焦：The Open Source Community is backing OpenEnv for
来源：Hugging Face Blog，建议结合原文判断细节。
AI 分析暂不可用，本条为保底评分与摘要。

#AI#编程#后端#云计算#产品

打开原文

开源社区支持 OpenEnv 用于智能体强化学习

返回文章列表

[-1

]

[0

发布于 2026 年 6 月 8 日

GitHub 上的更新

18

[

+12

Ben Burtenshaw

burtenshaw

关注

Joseph Spisak

spisakjo

Lysandre

Davide Testuggine

darktex

Will Brown

willcb

Chris Wing

cwing-nv

Daniel (Unsloth)

danielhanchen

Andrew Zhou

andrewzhou

Michael Han

shimmyshimmer

Hamid Shojanazeri

Hamid-Nazeri

Sanyam Bhutani

Sanyam

Zach Wentz

zkwentz

Emre Guven

emre0

Lewis Tunstall

lewtun

Sergio Paniego

sergiopaniego

OpenEnv 是一个用于创建智能体执行环境的工具，例如终端、浏览器或任何智能体可以交互的东西。今天，我们非常高兴地宣布，OpenEnv 正变得越来越开放，以使训练智能体的未来更加开源。

从今天起，OpenEnv 将由一个委员会协调，该委员会目前包括 Meta-PyTorch、Reflection、Unsloth、Modal、Prime Intellect、Nvidia、Mercor、Fleet AI 和 Hugging Face。OpenEnv 现在位于 huggingface/OpenEnv。

OpenEnv 项目得到了人工智能生态系统中一些领先组织的支持和采用，包括 PyTorch 基金会、vLLM、SkyRL（UCB）、Lightning AI、Axolotl AI、斯坦福大学扩展智能实验室、Mithril、OpenMined、Scaler AI 实验室、Scale AI、Patronus AI、Surge AI、Halluminate、Turing、Scorecard 和 Snorkel AI。

为什么我们需要 OpenEnv 来训练开源智能体

像 Claude Code、Codex、OpenClaw 和 Hermes 这样的智能体工具一直在不断改进。它们改进的一个原因是，像 GPT-5.5 和 Opus 4.8 这样的模型被训练为使用各自的工具。

我们也希望开源模型能获得这些优势：训练能够有效使用工具的本地模型，并通过专门化模型来完成特定任务，从而节省计算资源。

为什么我们需要（甚至）更加开放

前沿实验室训练的模型和工具，大部分情况下是紧密配合的。模型被训练为使用工具，并针对其特性进行优化。模型在一定程度上可以超越这些工具进行泛化，但没有什么能比得上训练的效率。

在开源领域，情况并非如此。开发者可以使用任何工具、任何模型、任何推理引擎，用于他们认为有价值的任何用例。这对社区来说是根本性的，但这也是一种需要基础设施和工具来解决的挑战。

这就是 OpenEnv 的作用。它是一个库，用于在工具、环境和训练器之间进行接口，适用于任何模型。为了使这个库能够持续发展，它需要由所有主要利益相关者共同拥有。

一个协议层，而不是奖励框架

随着治理结构的变化，我们正在明确 OpenEnv 的定位。

在最近的版本中，OpenEnv 已经成为强化学习环境的互操作性层。它的任务是标准化环境的发布、部署和被智能体消费的方式。它不会规定奖励如何定义，也不会规定训练循环如何运作。奖励定义、评分标准和训练器特定的逻辑应属于专门处理这些任务的库。OpenEnv 是它们都可以连接的通用接口。

实际上这意味着：

一个接口，多个环境，所有环境都提供熟悉的 Gymnasium 风格的 API（ reset()、step()、state()），运行在客户端/服务器架构上。能够使用 OpenEnv 的训练器可以驱动任何兼容的环境，而无需定制代码。

熟悉的协议和标准的打包方式。环境通过标准协议（如 HTTP 和 WebSocket）进行服务，并使用 Docker 进行打包。MCP 是一等公民，因此 OpenEnv 环境可以立即与 MCP 服务器兼容，并且在模拟（训练/评估）和生产模式下表现一致。

跨环境库的互操作性。你可以在不同的生态系统（验证器、Harbor 等）中定义和使用环境，并选择你自己的基础设施和中心。OpenEnv 是它们的部署和接口层，而不是它们的竞争对手。

下一步

在未来几个月里，我们将专注于使 OpenEnv 从一个快速增长的项目转变为一个可靠的标准：

通过数据集定义任务集：将环境任务连接到 Hugging Face 数据集，使环境和基准能够清晰地组合（RFC 006）。

外部奖励：允许你在已经使用的任何库中定义奖励，OpenEnv 作为部署层（RFC 007）。

持续的 Harness 集成：对代理式 Harness 提供一等支持。

端到端示例：在 TRL、Unsloth 等中提供完整的训练和评估流程。

自动验证：衡量环境的质量和对模型学习的贡献。这将为社区提供一种可扩展的方式来评估他们的环境并提高质量（可以想象黑客马拉松！）（RFC 008）。

参与进来

OpenEnv 的设计以社区为中心，目前还处于早期阶段——预计会有粗糙的边缘，帮助我们将其变得平滑。查看代码和 RFCs：github.com/huggingface/OpenEnv

感谢所有帮助实现这一转变的人。让我们一起构建开源代理式强化学习的通用基础。

更多文章来自我们的博客

公告

开源

社区

OpenEnv 实践：在真实环境中评估工具使用代理

+1

33

2026年2月12日

共同构建开放代理生态系统：介绍 OpenEnv

+6

162

2025年10月23日

社区

编辑

预览

通过拖拽到文本输入框、粘贴或

点击此处

上传图片、音频和视频。

点击此处上传图片

· 注册或登录以评论