165: 英伟达 GEAR 高深远:世界模型、自进化循环、DreamDojo

播客收听
问这期播客
会先在本集摘要、章节、转录和笔记里找答案。
TL;DR · AI 摘要
英伟达 GEAR 实验室推出 DreamDojo 和 DreamZero 世界模型,推动具身智能发展。
核心要点
- 英伟达 GEAR 实验室发布 DreamDojo 世界模型,支持视频数据训练。
- DreamZero 可替代 VLA,但面临泛化和评估难题。
- 自进化循环由世界模型、策略模型和 Agent 构成,实现自我优化。
结构提纲
按章节快速跳转。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- 世界模型与自进化循环
- 世界模型
- 视频数据训练
- DreamDojo
- 自进化循环
- 世界模型
- DreamZero
- 策略模型
- VLA, WAM
- Agent
- 视频/图像通信
金句 / Highlights
值得收藏与分享的关键句。
英伟达 GEAR 实验室发布 DreamDojo 世界模型,支持视频数据训练。
DreamZero 可替代 VLA,但面临泛化和评估难题。
自进化循环由世界模型、策略模型和 Agent 构成,实现自我优化。
章节
世界模型是什么? 施加动作,预测世界下一刻的状态
世界模型是什么? 施加动作,预测世界下一刻的状态
多 Agent(车/机器人)互联的世界模型
多 Agent(车/机器人)互联的世界模型
按世界状态的表征方式分类: 4 种世界模型
按世界状态的表征方式分类: 4 种世界模型
最看好 video 世界模型, 因为数据够丰富
最看好 video 世界模型, 因为数据够丰富
世界模型为何热起来? 数据增多 + 策略模型变强了
世界模型为何热起来? 数据增多 + 策略模型变强了
策略是什么?和世界模型的关系
策略是什么?和世界模型的关系
WAM(DreamZero)相比 VLM 的变化
WAM(DreamZero)相比 VLM 的变化
世界模型的一大价值是服务策略: 测评、生成数据、突破物理限制的虚拟强化学习
世界模型的一大价值是服务策略: 测评、生成数据、突破物理限制的虚拟强化学习
循环三要素: 世界模型、策略、Agent,它们如何彼此连接、优化
循环三要素: 世界模型、策略、Agent,它们如何彼此连接、优化
当前最大瓶颈,突破泛化: 物理的泛化、动作的泛化
当前最大瓶颈,突破泛化: 物理的泛化、动作的泛化
世界模型难以横评, 难以直观看到不同模型的差别
世界模型难以横评, 难以直观看到不同模型的差别
各团队的世界模型进展: DeepMind、Nvidia、OpenAI、General Intuition
各团队的世界模型进展: DeepMind、Nvidia、OpenAI、General Intuition
转录
世界模型是什么? 施加动作,预测世界下一刻的状态
多 Agent(车/机器人)互联的世界模型
按世界状态的表征方式分类4 种世界模型
最看好 video 世界模型, 因为数据够丰富
世界模型为何热起来? 数据增多 + 策略模型变强了
策略是什么?和世界模型的关系
WAM(DreamZero)相比 VLM 的变化
世界模型的一大价值是服务策略测评、生成数据、突破物理限制的虚拟强化学习
循环三要素世界模型、策略、Agent,它们如何彼此连接、优化
当前最大瓶颈,突破泛化物理的泛化、动作的泛化
世界模型难以横评, 难以直观看到不同模型的差别
各团队的世界模型进展DeepMind、Nvidia、OpenAI、General Intuition
“在学界继续做自动驾驶世界模型没意思了”
加入 GEAR,DreamDojo 和 DreamZero 的发起
在英伟达构建最大规模 Human Center 数据
跨本体的 Latent action,以后还需要吗?
DreamDojo 的评测自建 6 个 benchmark 的逻辑
自己不掌握视频基模,能做出有竞争力的世界模型吗?
节目笔记
本期《晚点聊》,我与刚从港科大博士毕业的一位年轻研究者高深远,他从去年开始在英伟达实习,接下来马上会正式加入英伟达的具身智能实验室 GEAR。
我们聊了深远 2024 年以来一直专注的方向:世界模型。
前 1 个多小时,我们展开了整个世界模型的大图景:它的分类?它是为了解决什么问题?它的现状、瓶颈和未来方向,以及各主要公司的思路。
很多人认为世界模型的说法太模糊、涵盖太多,这是一些早期技术的常见现象,这期正好厘清,目前有哪些做世界模型的方法和思路。
后一部分,我们聊了GearLab 在世界模型上的一些实践。尤其是去年底至今,他们陆续发布的世界模型 DreamDojo,(深远是这个工作的联合一作)以及被认为有可能会取代 VLA 的世界动作模型 DreamZero 的研发历程和具体创新点。也延展聊了世界模型可能的竞争局面。
深远描绘了他认为非常有前景的一种自进化循环——它由世界模型、策略模型(如 VLA、WAM 等)和连接二者的 Agent 构成。在英伟达,世界模型和策略模型有 DreamDojo-DreamZero 的组合,在 DeepMind 有 Genie-SIMA的组合。以下的图示更容易帮助理解播客里的讨论。

图注:_图中大脑代表 agent,机器人代表策略,地球代表世界模型,中间的图是数据集。世界模型的输出(对世界下一刻的预测)是 agent 的输入,供 agent 给世界预测打分,用以优化策略模型;同时世界模型的输出也是策略模型的输入,而策略模型的输出(动作)是世界模型的输入。同时,agent 也给策略模型做任务规划。
世界模型到 agent 和策略是用视频/图像通信,策略到世界模型是用 action 通信,agent 到策略是用文本通信;agent优化策略可以是一个打分数值,也可以是由文本转过来的一种分数信号。_
本期嘉宾:高深远,英伟达 GEAR 研究员
本期主播:程曼祺,《晚点 LatePost》科技报道负责人
剪辑:Nick、甜食
时间线跳转:
- 世界模型大图景
02:19 世界模型是什么? 施加动作,预测世界下一刻的状态
05:35 多 Agent(车/机器人)互联的世界模型
09:57 按世界状态的表征方式分类: 4 种世界模型
15:33 最看好 video 世界模型, 因为数据够丰富
19:36 世界模型为何热起来? 数据增多 + 策略模型变强了
- 世界模型、策略模型和 Agent 的自进化循环
21:42 策略是什么?和世界模型的关系
23:39 WAM(DreamZero)相比 VLM 的变化
28:26 世界模型的一大价值是服务策略: 测评、生成数据、突破物理限制的虚拟强化学习
33:42 循环三要素: 世界模型、策略、Agent,它们如何彼此连接、优化
- 世界模型的未来
43:07 当前最大瓶颈,突破泛化: 物理的泛化、动作的泛化
51:49 世界模型难以横评, 难以直观看到不同模型的差别
55:28 各团队的世界模型进展: DeepMind、Nvidia、OpenAI、General Intuition
- 从自动驾驶到具身,从 AI Lab 到 GEAR
01:02:44 “在学界继续做自动驾驶世界模型没意思了”
01:06:30 加入 GEAR,DreamDojo 和 DreamZero 的发起
01:14:12 在英伟达构建最大规模 Human Center 数据
01:21:05 跨本体的 Latent action,以后还需要吗?
01:28:41 DreamDojo 的评测: 自建 6 个 benchmark 的逻辑
01:39:30 自己不掌握视频基模,能做出有竞争力的世界模型吗?
- [01:45:44](https://www.xiaoyuzhoufm.com/episode/6a0a624de9161a38ce31ba3f) 连点成线
相关链接:
157 期:【具身季报 26Q1】宇树招股书、人形再思考、英伟达世界模型、高自由度灵巧手
150 期:【年末AI回顾】从模型到应用、从技术到商战,拽住洪流中的意义之线|Solo
148 期:它石智航陈亦伦:具身的三道曙光和第一道关卡
附录:一些名词解释
- 级联误差,Cascade Error:指在包含多个串联模块或阶段的系统中,前一阶段产生的误差未被纠正,直接传递给下一阶段,误差被放大。
- Genie(Generative Interactive Environments):DeepMind 团队发布的基础世界模型。它能通过一张图或一段文字描述生成一个动作可控的虚拟世界。目前发布到 Genie 3
- SIMA(Scalable Instructable Multiworld Agent):DeepMind团队开发的虚拟角色策略模型(DeepMind 称其为 Agent),能理解玩家用自然语言下达的指令(如“向左转”、“拿起斧头”),在 Genie 等各种虚拟环境中操控角色执行任务(产生动作)。
- Intuition:一家希望打造空间智能的美国创业公司。
小红书@[曼祺_火柴Q](https://www.xiaohongshu.com/user/profile/5dfa9e92000000000100626f?xsec_token=YBSKzbnOGWpnyJ5fxw_yafTdnAUIDw-EfCtqmFTkCIM2o=&xsec_source=app_share&xhsshare=CopyLink&appuid=5dfa9e92000000000100626f&apptime=1736682459&share_id=331aecb9ca7941f498d81fb9c32ea810)即刻@[曼祺_火柴Q](https://okjk.co/FBoH1Q)

☆《晚点聊 LateTalk》建立「 播客听友群」啦!☆
欢迎关注科技、商业大公司动态和创业创新的小伙伴进群交流,第一时间收听新节目。
这里有更多互动,更多话题讨论。欢迎贡献选题 & 推荐嘉宾。
请先添加「晚点」小助手的微信号,备注:“晚点聊”,我们邀请您入群。

关注公众号《晚点 LatePost》和《晚点对话》,阅读更多商业、科技文章:
