T
traeai
登录
返回首页
Jim Fan(@DrJimFan)

I made Physical AutoResearch sound simple (conceptually), but it took a village to pull off and lots...

8.5Score
I made Physical AutoResearch sound simple (conceptually), but it took a village to pull off and lots...

TL;DR · AI 摘要

ENPIRE 系统通过安全设计、目标定义和资源监控,实现了物理世界中的 AutoResearch。

核心要点

  • ENPIRE 使用双层安全机制确保机器人运行安全,包括硬限位和扭矩限制。
  • ENPIRE 通过冻结奖励函数防止代理篡改目标,提升任务完成可靠性。
  • ENPIRE 监控机器人、GPU 和 token 的利用率,优化资源分配效率。

结构提纲

按章节快速跳转。

  1. 介绍了 ENPIRE 系统在物理世界中实现 AutoResearch 的挑战和设计思路。

  2. ENPIRE 通过硬限位和扭矩限制确保机器人运行安全,防止意外损坏。

  3. ENPIRE 通过冻结奖励函数防止代理篡改目标,提升任务完成可靠性。

  4. ENPIRE 监控机器人、GPU 和 token 的利用率,优化资源分配效率。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • ENPIRE 系统设计
    • 安全机制
      • 硬限位
      • 扭矩限制
    • 目标定义
      • 冻结奖励函数
    • 资源监控
      • 机器人利用率
      • GPU 利用率
      • Token 利用率

金句 / Highlights

值得收藏与分享的关键句。

  • ENPIRE hardwires safety in 2 layers: (1) hard kinematic limit that trips an immediate task failure and auto-resets as soon as a robot leaves its safety envelope, and (2) a torque-limited compliant gri

    第 2 段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • Freeze the reward function before AutoResearch. It's sacred, enshrined in a Gym env that no one can touch.

    第 2 段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • We instrument all three and surface them to ENPIRE for live resource awareness rather than letting it hill-climb in a vacuum.

    第 3 段

    ⬇︎ 下载 PNG𝕏 分享到 X
#AutoResearch#机器人#ENPIRE#AI 系统
打开原文

Jim Fan 在 X 上的发言: "我让 Physical AutoResearch 听起来简单(概念上),但要实现它需要全村人的努力和大量的设计思考,投入到机器人 /loopcraft 中。最难的部分是按下 Enter 之前需要设置的一切。这里有一个幕后之旅:1. 安全带 让 8 台机器人整夜无人看管运行意味着安全必须在系统提示中不仅仅是提示。ENPIRE 在两个层面中硬编码了安全:(1)一个硬性运动学限制,一旦机器人离开安全范围,就会立即触发任务失败并自动重置,(2)一个扭矩限制的柔性夹爪,这样不良接触或错位插入会导致安全停止,而不是压坏机器人或手中的物体。我们让安全比平常更加保守,这样人类才能安心入睡。实际上,我们仍然需要一些人类操作员来监督这些“充满仁爱的机器人”。2. /done 的定义 一个可以编辑自己奖励的代理肯定会利用这一点。ENPIRE 在舰队移动之前就固定了目标。这里是配方:收集几分钟的成功与失败演示 -> 要求代理使用计算机视觉工具编写代码来分类成功并测量与真实值的对比 -> 代理通过分类器进行爬坡,直到可靠地表现良好 -> 这个分类器成为实时奖励函数,直接在传感器流上计算 -> *冻结* 奖励函数在 AutoResearch 之前。它是神圣的,被封存在一个 Gym 环境中,没有人可以触碰。3. 系统遥测设计 机器人秒数远比 GPU 秒数稀缺,其次是令牌。我们对这三个都进行监控,并将其呈现在 ENPIRE 中进行实时资源感知,而不是让它在真空中爬坡。我们定义: - 平均机器人利用率("MRU"):机器人积极执行实验的墙钟时间比例。否则,硬件会空闲并等待下一次代码提交。 - 平均令牌利用率("MTU"):每分钟消耗的令牌数,我们将其作为代理实际思考难度的代理指标。低 MTU 意味着代理停滞,等待机器人部署完成而不是进行研究。 - GPU 利用率:GPU 活动的墙钟时间比例。 ... 并在两个预算与成果的指标上进行评估:1. 令牌到成功:舰队完成 /goal 所消耗的令牌预算。2. 时间到成功:达到 /goal 所需的墙钟时间。

00:00

6月16日

今天,我们首次在物理世界中启用了 AutoResearch!介绍 ENPIRE:我们给 8 个 Codex 代理提供了一支机器人舰队、一定数量的 GPU 和丰富的令牌预算。我们设定了一个简单的目标:尽可能快地解决问题,让机器人保持忙碌

显示更多

2026年6月17日 下午4:31

78.3K

浏览量

3

5

35

6

66

4

664

9

359

阅读35条回复

AI 可能会生成不准确的信息,请核实重要内容

I made Physical AutoResearch sound simple (conceptually), but it took a village to pull off and lots... | Jim Fan(@DrJimFan) | traeai