75.与灵初王启斌聊「灵巧操作」：10 万小时人类数据，一座富矿，与中国具身大脑的另一种叙事

卫诗婕｜商业漫谈Jane's talk

卫诗婕｜商业漫谈Jane's talk播客2026年5月29日2:04:45

75.与灵初王启斌聊「灵巧操作」：10 万小时人类数据，一座富矿，与中国具身大脑的另一种叙事

8.7内容质量

播客收听

时长 2:04:45原播客页面

问这期播客

会先在本集摘要、章节、转录和笔记里找答案。

TL;DR · AI 摘要

灵初智能凭借10万小时人类灵巧操作多模态数据构建具身大脑，提出双模型闭环架构（R策略模型+W0世界模型），主张“从数据出发”路线；7890跨代际团队与RDP全流程实践揭示具身尚处冷启动阶段。

核心要点

灵初已积累10万小时手部多模态数据，精度排序：3D关节角 > 触觉 > 2D视频
双模型闭环：R生成动作，W0仿真评估并注入30%纠错数据，实现自增强
具身头部年出货仅5000台，必须依赖人类数据冷启动；‘百万小时’成共识后需警惕泡沫

结构提纲

按章节快速跳转。

§灵初智能定位与核心资产
灵初被摩根士丹利列为全球人形机器人领域中国大脑代表，核心资产是10万小时高精度人类灵巧操作多模态数据集。
·灵巧操作的技术本质与数据挑战
灵巧操作需长程规划、手眼协同与实时纠错三能力，而人类操作知识不可传承，必须通过数据挖掘转化为可训练信号。
·具身智能的冷启动路径：数据飞轮 vs 硬件先行
具身缺乏存量市场，无法复用智驾数据飞轮，必须依赖人类数据冷启动；灵初选择‘模型+数据’路线，区别于特斯拉式硬件优先路径。
›双模型闭环架构设计
R策略模型接收多模态输入生成动作，W0世界模型仿真环境状态并反馈纠错，二者串联形成数据自生成闭环。
·7890战队与RDP全流程组织实践
由70后产品、80后算法、90后学者、00后强化学习专家组成的跨代际团队，推动从研究到产品落地的快速迭代机制。
·中国机会：低成本+多样性数据优势
中美数据采集成本差约10倍;中国在真实场景多样性与执行效率上具备独特优势，可支撑高质量预训练数据构建。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

灵初智能：具身大脑的中国路径
- 核心资产
  - 10万小时人类灵巧操作多模态数据
  - Hugging Face下载量第一（1000h+）
  - 3D关节角精度 > 触觉 > 2D视频
- 技术路线
  - 双模型闭环：R策略 + W0世界模型
  - Sim2Real迁移（00后联创强化学习）
  - 拒绝硬件优先，坚持数据驱动
- 组织与人才
  - 7890战队：70-00后跨代际融合
  - RDP全流程：Research→Dev→Product
  - 治理＞管理：应对软硬数据耦合复杂性
- 行业判断
  - 具身尚处冷启动，非ChatGPT 3.5时刻
  - 中美数据成本差约10倍，中国有优势
  - 第一轮淘汰赛尚未开始，周期约7年

金句 / Highlights

值得收藏与分享的关键句。

数据洞察：手的3D关节角精确度 > 触觉 > 2D照片；全模态数据比纯第一人称视频更精确丰富。
— Part 5
⬇︎ 下载 PNG 𝕏 分享到 X
灵初双模型架构：R是策略模型（输入图像/语言/本体状态→动作），W0是世界模型（仿真评估+30%纠错数据），串成闭环回流生成新数据。
— Part 5
⬇︎ 下载 PNG 𝕏 分享到 X
具身去年头部出货才5000台，飞轮必须靠人类数据冷启动；没有模型需求方牵引的数据采集一定是无序低效的垃圾场。
— Part 3 & 5
⬇︎ 下载 PNG 𝕏 分享到 X
‘百万小时数据是我们最早提的，现在所有人都这么说时反而要警惕’——反映行业进入概念泛化期，需回归数据质量本质。
— Part 6
⬇︎ 下载 PNG 𝕏 分享到 X

章节

要点
灵初已积累10万小时手部多模态数据，精度排序为：3D关节角 > 触觉 > 2D视频，全模态数据优于第一人称视频
灵初已积累10万小时手部多模态数据，精度排序为：3D关节角 > 触觉 > 2D视频，全模态数据优于第一人称视频
要点
采用双模型闭环架构：R模型生成动作，W0世界模型仿真评估并注入30%纠错数据，实现数据自增强
采用双模型闭环架构：R模型生成动作，W0世界模型仿真评估并注入30%纠错数据，实现数据自增强
要点
具身行业尚处早期，头部年出货仅5000台，必须依赖人类数据冷启动；‘百万小时’成共识后反需警惕泡沫
具身行业尚处早期，头部年出货仅5000台，必须依赖人类数据冷启动；‘百万小时’成共识后反需警惕泡沫

转录

这期还没有可搜索转录。后续抓到带时间戳的内容后会自动补到这里。

#具身智能#灵巧操作#多模态数据#灵初智能#RDP流程

节目笔记

2026 的上半年，中国资本市场围绕具身进行了大规模的布局，将具身大脑这个赛道推向了前所未有的热度。

这期的嘉宾灵初智能，刚刚登顶了摩根士丹利最新发布的《全球人形机器人研报》，它被视作中国具身大脑阵营的核心代表之一。从灵巧操作出发，这条大脑路线直指智能的上限。

创始人王启斌是 70 后产品背景，乔治华盛顿大学博士，完整经历了"智能设备 → 移动机器人 → 具身智能”的三次范式更迭。

我们的访谈不仅涉及到大量具身行业的真实进展，也描绘了在具身这个早期行业中，从研发（R）到工程（D）到产品（P），所谓 RDP 的全流程。

2024 年，70 后王启斌，和80 后算法老兵柴晓杰、 90 后北大学者杨耀东、00 后天才少年陈源培，组成了灵初智能这支具身“7890 战队”，成为这个行业背景最豪华的团队之一。

（本期访谈的视频版已经登录 B 站、视频号、微博、小红书、Youtube 等平台，欢迎前往观看～，文字版可前往公众号「卫诗婕漫谈 Light the Star」）

本期嘉宾：王启斌（Viktor）· 灵初智能创始人

本期 Shownotes：

Part 1. [00:00](https://www.xiaoyuzhoufm.com/episode/6a184c457460cabdeb5768f0)-[08:56](https://www.xiaoyuzhoufm.com/episode/6a184c457460cabdeb5768f0) 让机器人「动手」，为什么是皇冠级的大脑问题？

灵初是谁？

被摩根士丹利视作中国大脑核心代表，灵初是谁？
Hugging Face 上 1000 小时多模态数据集下载量第一
希腊字母第 23 个 Psi（Ψ），意指强化学习，「像孩子一样在环境中交互、逐渐长大」
为什么做大脑的公司普遍估值更高？

什么是通用灵巧操作？为什么说人类操作数据是一座富矿？

操作的三种能力：对任务做长程语义分解（规划）、手眼协同、实时纠错
人类能力的演进顺序：行动最早（灵长类）、视觉次之（寒武纪）、语言最晚——而机器恰好相反
机器人不一定像人类那样大脑/小脑严格分开，目前没有完美的大小脑结构能拟合类人能力
夹爪很难做类人复杂操作
操作知识不具备可传承性——如何把人类经验挖出来变成可训练的数据，是具身要回答的根本问题

Part 2. [08:56](https://www.xiaoyuzhoufm.com/episode/6a184c457460cabdeb5768f0)-[20:04](https://www.xiaoyuzhoufm.com/episode/6a184c457460cabdeb5768f0) Why now：具身浪潮，周期与淘汰赛

2026，具身为什么更热了？

「新的浪来了」：过去几波范式不会持续这么长
why now 的底层：具身是真正回到物理世界的问题
具身的市场，只会比智驾更大：上一波公司的顶点，可能是下一代公司的起点
跑完一个 cycle 约 7 年：至少会有三轮淘汰赛

关于王启斌：黑莓vs苹果，一个产品老将经历的范式更迭

黑莓曾是全球唯一净利率 25%+ 的公司（另一家是苹果）
从苹果开始，ToB/ToC 没有绝对分割
什么是苹果真正的胜负手？
新世界物种对旧世界的降维打击，是如何发生的？
「站在旧世界的人不用 complain，这就是宿命。」
「当年带 Sonos 全球 CEO 见百度陆奇，是我的心结」
什么样的 ToC 产品能击穿 ToB？苹果做到了。具身领域有机会吗？

20:04 中美硬件之争，穿越周期的产品经理，与审美

审美的物质基础：Jony Ive 的设计传统在英国，小米设计领导人传统在德国，消费电子审美在欧洲
Sonos 和 B&O ——两种产品哲学
小米生态链/IoT 兴起（2015）后，中国消费电子工业设计的崛起&底层：从整机到核心零部件的全链路掌控 + 快速迭代

Part 3. 中美硬件之争，两代机器人公司，谁会赢？

「美国大脑领先、中国硬件领先」，人们只看到了轨迹的起点

为什么从泛化性居中、节拍较低的物流和服务业 toB 切入
5 年内「只做模型不做硬件」是伪命题——具身现处于软硬深度耦合阶段
落地两种形态：固定上半身、可移动+上半身——两种构型，训同一个模型
具身的数据飞轮和车完全不同——车有存量市场，具身去年头部出货才 5000 台，飞轮必须靠人类数据冷启动

上一代自动化机器人 vs 具身新秀派，谁会赢？

上一代移动机器人靠 SLAM（2015 前后）和基于规则的技术，深耕单一场景；当下具身解决更复杂的操作问题，用 learning base 的学习范式，人才完全不同
三个顶层问题：解决什么问题、用什么技术路线、什么样的人才；
创新者诅咒：成熟公司有自己的场景循环，可能恰恰是负担
仓储物流、无人配送领域，全是创业公司赢了（海柔、极智嘉、新石器）——阿里、美团、京东，为什么都落后了？
「原来真的是书上得来终觉浅……谁有场景谁赢，是个错误。」

Part 4. 灵初的成立：7890 战队 & 科学家创业潮

横跨中美，花半年时间找科学家：国内能做灵巧操作的不超过 10 人
如何判断科学家是否适合一起创业？
在斯坦福李飞飞实验室的 00 后联创：强化学习，将人类数据迁移到灵巧操作的 Sim2Real
「7890 战队」：为什么具身需要的人才跨度大？跨代际和领域的融合难度？
怎样治理一个软硬数据耦合的复杂组织？
为什么「量产那套」不完全适用于具身大脑研发？
AI 时代，为什么强调「治理」而非「管理」？
硬件派 vs 模型派的路线分野：从硬件出发（做到稳定便宜规模化，特斯拉思路）vs 从模型和数据出发（用优质数据训模型，灵初思路）

Part 5. [01:01:06](https://www.xiaoyuzhoufm.com/episode/6a184c457460cabdeb5768f0) 具身数据的真问题，与中国的另一种叙事

可规模化预训练的优质数据长什么样？数据管线怎么做？

算力、数据手套与数据飞轮：灵初的真实数据方法论
什么是检验真做大脑 or 水货大脑公司的金线？
数据洞察：手的 3D 关节角精确度 > 触觉 > 2D 照片；
全模态数据，比纯第一人称视频更精确丰富
行业最大的10 万小时手部多模态数据怎么来？
数据管线 = 数据处理平台（审核、标注、处理）+ 进训练框架训模型 + 模型反馈 +抽象出数据洞察

具身数据乱象：已经出现一些空置的数采场

没有模型需求方牵引，数据采集一定是无序、低效、垃圾场级别的
只有真正在训模型的大脑公司，才有资格定义「需要什么数据」、才能分辨「什么是 garbage」；
「投资人最后看的是这道菜到底怎么样，他并不知道这道菜里头真正用了多少调料。」

具身大脑看美国？中国有机会做出好大脑吗？

中美数据成本差约 10 倍，低成本 + 多样性是中国的机会
关于派（Pi）：证明了真实数据在夹爪上能泛化，验证了真实数据路线
现在远没到具身的「ChatGPT 3.5 时刻」：非结构化环境的通用还很漫长，但「专注一个 domain 」的通用是可以做出来的
灵初的双模型架构：R 是策略模型（输入图像/语言/本体状态，生成动作）；W0 是世界模型（像真实世界仿真器，评估动作后的状态，用强化学习优化、放入约 30% 纠错失误数据），两个模型串成闭环，再回流生成新数据集
主流架构（Transformer）能不能成为绝对垄断架构，还需数据验证——Transformer 是在 GPT-3.5 之后吃掉巨量数据、加上强化学习才被验证的；具身底层架构的有效性，同样要靠足够的数据来验证

Part 6. [01:22:54](https://www.xiaoyuzhoufm.com/episode/6a184c457460cabdeb5768f0) 「游戏才刚刚开始，第一轮淘汰赛都还未开始。」

具身大脑公司，怎么做？

大模型&后训练人才：创业公司怎么和大厂抢人？
最难的事怎么解决？——「没有失败过的成功，是不可信的」
为什么拒绝把灵初定位为一家「AGI 公司」？
通用灵巧操作是技术通货：「未来我们甚至可以不做机器人」
AI 时代的产品经理有三个圈——懂技术、懂 UI（用户交互）、有商业思维

从 R（research），到 D（Development），到 P（Product）——如何在一个大组里快速迭代？

选场景必须同时满足两个条件：有真正商业价值的共性痛点（应用面广）、且符合数据泛化性需求
进工厂的事故责任：作为供应商有协议要负责，高节拍流水线很难，流水线下的供料等场景可跑通；
「具身这个行业早已被客户簇拥」
「曲线已开始跑但还没到真正拐点」「今年底是模型泛化性的第一个验证阶段」
基于数据量的模型迭代军备竞赛已开始，周期 3 年以上
「百万小时数据是我们最早提的，现在所有人都这么说时反而要警惕」

Part 7. [01:53:30](https://www.xiaoyuzhoufm.com/episode/6a184c457460cabdeb5768f0) 一个 70 后创业者的务实 & 浪漫

创业是冲浪还是西西弗斯：不存在"走到某阶段就彻底释放"，过程本身才最重要

「某天清晨阳光斜照在 logo 墙上的一瞬间」

真正的中年危机：40 岁时，最怕未来与自己无关

「我最讨厌被叫老板」

我强烈推荐你去读摩根·豪泽尔的《Same as Ever》

创始人的基因（vision/mission/经历）真正决定了公司的路径

DeepMind 哈萨比斯押注 AlphaGo 做出世界级成果，却 miss 了大语言模型；OpenAI 以"安全/非营利"起家，最后一批人出走创立 Anthropic——同一场 AI 史诗里有各种活法

加入听友群⬇️

如果你是具身领域的专业 researcher ，欢迎添加主播微信（SJ_Jelyne）.

75.与灵初王启斌聊「灵巧操作」：10 万小时人类数据，一座富矿，与中国具身大脑的另一种叙事

播客收听

问这期播客

TL;DR · AI 摘要

核心要点

结构提纲

思维导图

金句 / Highlights

章节

灵初已积累10万小时手部多模态数据，精度排序为：3D关节角 > 触觉 > 2D视频，全模态数据优于第一人称视频

采用双模型闭环架构：R模型生成动作，W0世界模型仿真评估并注入30%纠错数据，实现数据自增强

具身行业尚处早期，头部年出货仅5000台，必须依赖人类数据冷启动；‘百万小时’成共识后反需警惕泡沫

转录

节目笔记

**本期嘉宾：王启斌（Viktor）· 灵初智能创始人**

**本期 Shownotes：**

Part 1. [00:00](https://www.xiaoyuzhoufm.com/episode/6a184c457460cabdeb5768f0)-[08:56](https://www.xiaoyuzhoufm.com/episode/6a184c457460cabdeb5768f0) 让机器人「动手」，为什么是皇冠级的大脑问题？

Part 2. [08:56](https://www.xiaoyuzhoufm.com/episode/6a184c457460cabdeb5768f0)-[20:04](https://www.xiaoyuzhoufm.com/episode/6a184c457460cabdeb5768f0) Why now：具身浪潮，周期与淘汰赛

Part 3. 中美硬件之争，两代机器人公司，谁会赢？

Part 4. 灵初的成立：7890 战队 & 科学家创业潮

Part 5. [01:01:06](https://www.xiaoyuzhoufm.com/episode/6a184c457460cabdeb5768f0) 具身数据的真问题，与中国的另一种叙事

Part 6. [01:22:54](https://www.xiaoyuzhoufm.com/episode/6a184c457460cabdeb5768f0) 「游戏才刚刚开始，第一轮淘汰赛都还未开始。」

Part 7. [01:53:30](https://www.xiaoyuzhoufm.com/episode/6a184c457460cabdeb5768f0) 一个 70 后创业者的务实 & 浪漫

本期嘉宾：王启斌（Viktor）· 灵初智能创始人

本期 Shownotes：