T
traeai
登录
返回首页
Hugging Face Blog

The Open Source Community is backing OpenEnv for Agentic RL

6.9Score

TL;DR · AI 摘要

The Open Source Community is backing OpenEnv for Agentic RL Back to Articles -1 0 Published June 8, 2026 Update on GitHu...

核心要点

  • 主题聚焦:The Open Source Community is backing OpenEnv for
  • 来源:Hugging Face Blog,建议结合原文判断细节。
  • AI 分析暂不可用,本条为保底评分与摘要。
#AI#编程#后端#云计算#产品
打开原文

开源社区支持 OpenEnv 用于智能体强化学习

返回文章列表

[-1

]

[0

发布于 2026 年 6 月 8 日

GitHub 上的更新

点赞

18

[

  • +12

Ben Burtenshaw

burtenshaw

关注

Joseph Spisak

spisakjo

Lysandre

Davide Testuggine

darktex

Will Brown

willcb

Chris Wing

cwing-nv

Daniel (Unsloth)

danielhanchen

Andrew Zhou

andrewzhou

Michael Han

shimmyshimmer

Hamid Shojanazeri

Hamid-Nazeri

Sanyam Bhutani

Sanyam

Zach Wentz

zkwentz

Emre Guven

emre0

Lewis Tunstall

lewtun

Sergio Paniego

sergiopaniego

OpenEnv 是一个用于创建智能体执行环境的工具,例如终端、浏览器或任何智能体可以交互的东西。今天,我们非常高兴地宣布,OpenEnv 正变得越来越开放,以使训练智能体的未来更加开源。

从今天起,OpenEnv 将由一个委员会协调,该委员会目前包括 Meta-PyTorch、Reflection、Unsloth、Modal、Prime Intellect、Nvidia、Mercor、Fleet AI 和 Hugging Face。OpenEnv 现在位于 huggingface/OpenEnv。

OpenEnv 项目得到了人工智能生态系统中一些领先组织的支持和采用,包括 PyTorch 基金会、vLLM、SkyRL(UCB)、Lightning AI、Axolotl AI、斯坦福大学扩展智能实验室、Mithril、OpenMined、Scaler AI 实验室、Scale AI、Patronus AI、Surge AI、Halluminate、Turing、Scorecard 和 Snorkel AI。

为什么我们需要 OpenEnv 来训练开源智能体

像 Claude Code、Codex、OpenClaw 和 Hermes 这样的智能体工具一直在不断改进。它们改进的一个原因是,像 GPT-5.5 和 Opus 4.8 这样的模型被训练为使用各自的工具。

我们也希望开源模型能获得这些优势:训练能够有效使用工具的本地模型,并通过专门化模型来完成特定任务,从而节省计算资源。

为什么我们需要(甚至)更加开放

前沿实验室训练的模型和工具,大部分情况下是紧密配合的。模型被训练为使用工具,并针对其特性进行优化。模型在一定程度上可以超越这些工具进行泛化,但没有什么能比得上训练的效率。

在开源领域,情况并非如此。开发者可以使用任何工具、任何模型、任何推理引擎,用于他们认为有价值的任何用例。这对社区来说是根本性的,但这也是一种需要基础设施和工具来解决的挑战。

这就是 OpenEnv 的作用。它是一个库,用于在工具、环境和训练器之间进行接口,适用于任何模型。为了使这个库能够持续发展,它需要由所有主要利益相关者共同拥有。

一个协议层,而不是奖励框架

随着治理结构的变化,我们正在明确 OpenEnv 的定位。

在最近的版本中,OpenEnv 已经成为强化学习环境的互操作性层。它的任务是标准化环境的发布、部署和被智能体消费的方式。它不会规定奖励如何定义,也不会规定训练循环如何运作。奖励定义、评分标准和训练器特定的逻辑应属于专门处理这些任务的库。OpenEnv 是它们都可以连接的通用接口。

实际上这意味着:

一个接口,多个环境,所有环境都提供熟悉的 Gymnasium 风格的 API( reset()、step()、state()),运行在客户端/服务器架构上。能够使用 OpenEnv 的训练器可以驱动任何兼容的环境,而无需定制代码。

熟悉的协议和标准的打包方式。环境通过标准协议(如 HTTP 和 WebSocket)进行服务,并使用 Docker 进行打包。MCP 是一等公民,因此 OpenEnv 环境可以立即与 MCP 服务器兼容,并且在模拟(训练/评估)和生产模式下表现一致。

跨环境库的互操作性。你可以在不同的生态系统(验证器、Harbor 等)中定义和使用环境,并选择你自己的基础设施和中心。OpenEnv 是它们的部署和接口层,而不是它们的竞争对手。

下一步

在未来几个月里,我们将专注于使 OpenEnv 从一个快速增长的项目转变为一个可靠的标准:

  • 通过数据集定义任务集:将环境任务连接到 Hugging Face 数据集,使环境和基准能够清晰地组合(RFC 006)。
  • 外部奖励:允许你在已经使用的任何库中定义奖励,OpenEnv 作为部署层(RFC 007)。
  • 持续的 Harness 集成:对代理式 Harness 提供一等支持。
  • 端到端示例:在 TRL、Unsloth 等中提供完整的训练和评估流程。
  • 自动验证:衡量环境的质量和对模型学习的贡献。这将为社区提供一种可扩展的方式来评估他们的环境并提高质量(可以想象黑客马拉松!)(RFC 008)。

参与进来

OpenEnv 的设计以社区为中心,目前还处于早期阶段——预计会有粗糙的边缘,帮助我们将其变得平滑。查看代码和 RFCs:github.com/huggingface/OpenEnv

感谢所有帮助实现这一转变的人。让我们一起构建开源代理式强化学习的通用基础。

更多文章来自我们的博客

公告

开源

社区

OpenEnv 实践:在真实环境中评估工具使用代理

  • +1

33

2026年2月12日

共同构建开放代理生态系统:介绍 OpenEnv

  • +6

162

2025年10月23日

社区

编辑

预览

通过拖拽到文本输入框、粘贴或

点击此处

上传图片、音频和视频。

点击此处上传图片

评论

· 注册或登录以评论

AI 可能会生成不准确的信息,请核实重要内容

The Open Source Community is backing OpenEnv for Agentic RL | Hugging Face Blog | traeai