Spark AI 李智昊：用视频做世界模型，路线非常不本质

Q: 大厂的挑战

大厂难以从表征层面做更改。

AI炼金术

AI炼金术播客2026年5月27日55:21

Spark AI 李智昊：用视频做世界模型，路线非常不本质

8.5内容质量

播客收听

时长 55:21原播客页面

问这期播客

会先在本集摘要、章节、转录和笔记里找答案。

TL;DR · AI 摘要

李智昊认为用视频做世界模型的路线不本质，提出直接对4D空间进行建模的方法，并预测两年内实现4D的Stable Diffusion时刻。

核心要点

李智昊认为用视频做世界模型丢失了很多物理规律。
Spark 3D采用4D点云+Motion残差的方法解决延迟问题。
他认为壁垒在于表征效率而非数据和算力。

结构提纲

按章节快速跳转。

§引言
李智昊介绍自己及Spark 3D项目背景。
·视频生成式世界模型的局限
视频生成式世界模型丢失物理规律，无法高效表征。
·延迟问题
现有方法存在延迟问题，影响自动驾驶和机器人训练。
·Spark 3D的技术路径
Spark 3D采用4D点云+Motion残差的方法。
·大厂的挑战
大厂难以从表征层面做更改。
·壁垒与预测
壁垒在于表征效率，预测两年内实现4D的Stable Diffusion时刻。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

用视频做世界模型

金句 / Highlights

值得收藏与分享的关键句。

从我的视角来看，这条路线非常的不本质。
— 第 33 分钟
⬇︎ 下载 PNG 𝕏 分享到 X
它被拍扁了那一刻，就很多的物理规律就被丢失掉了。
— 第 6 分钟
⬇︎ 下载 PNG 𝕏 分享到 X
我觉得现在大部分人认为世界模型的壁垒还在于数据。我个人认为，壁垒在于表征的效率。
— 后半段
⬇︎ 下载 PNG 𝕏 分享到 X

章节

一句话讲清楚他在干嘛——表征是底层暗线
一句话讲清楚他在干嘛——表征是底层暗线
Spark 3D 是怎么火起来的（5 月 1 日 Hugging Face Trending 第一）
Spark 3D 是怎么火起来的（5 月 1 日 Hugging Face Trending 第一）
压缩本身是一种表征方式
压缩本身是一种表征方式
为什么 word model 必须做 4D 而不是 2D 视频
为什么 word model 必须做 4D 而不是 2D 视频
「我们把视频当做一个 4D 物理世界的有损投影」
「我们把视频当做一个 4D 物理世界的有损投影」
视频生成路线的真正瓶颈：Latency
视频生成路线的真正瓶颈：Latency
Spark 3D 的技术路径：4D 点云 + Motion 残差
Spark 3D 的技术路径：4D 点云 + Motion 残差
4D 点云怎么压缩成 token
4D 点云怎么压缩成 token
Ablation study：压缩好就能把智能上限提高
Ablation study：压缩好就能把智能上限提高
「大厂非常难以去从表征层面来做更改」
「大厂非常难以去从表征层面来做更改」
任鑫提炼："越小公司越应该做大事"
任鑫提炼："越小公司越应该做大事"
「我们其实真的是在做底层」
「我们其实真的是在做底层」

转录

一句话讲清楚他在干嘛——表征是底层暗线

Spark 3D 是怎么火起来的（5 月 1 日 Hugging Face Trending 第一）

压缩本身是一种表征方式

为什么 word model 必须做 4D 而不是 2D 视频

「我们把视频当做一个 4D 物理世界的有损投影」

视频生成路线的真正瓶颈Latency

Spark 3D 的技术路径4D 点云 + Motion 残差

4D 点云怎么压缩成 token

Ablation study压缩好就能把智能上限提高

「大厂非常难以去从表征层面来做更改」

任鑫提炼"越小公司越应该做大事"

「我们其实真的是在做底层」

「这条路线非常的不本质」

任鑫讲佛教公案 / [3530](https://www.xiaoyuzhoufm.com/episode/6a170ca392551efcff171aa5) 李智昊技术解读

类比图像生成的 Stable Diffusion 时刻

「4D 跃迁，两年内会被实现」

To C 切入点高精度多人 Minecraft

彩蛋OnlyFans / NSFW 方向

游戏公司是天然客户3D 一致性需求

世界模型赛道全景图（三类玩家）

「壁垒在于表征的效率」

一句话送给想跟图、跟 3D 创业的人

「下一个被突破的，可能就是 4D 物理世界」

任鑫收尾做 AI 最痛苦的事

#世界模型#4D空间#Spark 3D

节目笔记

李智昊，1998 年生。Spark AI 联合创始人。Spark 3D 论文发表在 NeurIPS 2025。

聊到第 33 分钟，他对我说：

「从我的视角来看，这条路线非常的不本质。」

——「这条路线」指的是今天最火、最多融资的世界模型公司"用视频做世界模型"的路线。

去年 5 月 1 日凌晨，他和团队的 Spark 3D demo 上了 Hugging Face Trending 第一。他的判断是：4D 物理世界自己的 Stable Diffusion 时刻——两年内会被实现。

这一期是给所有做图、做 3D、做机器人、做游戏、做视频、以及想在下一波 AI 跃迁里"埋伏"的人——一份蹲守地图。

嘉宾

李智昊｜Spark AI 联合创始人。1998 年生，南大本科、新加坡南洋理工大学博士。代表作 Spark 3D——2025 年 5 月 1 日 demo 上 Hugging Face Trending 第一名，论文发表于 NeurIPS。一直沿着"压缩可以提升智能"这条暗线在走：从语言、图像、3D 一路逼到 4D 物理世界。本期他给所有人画了一张"世界模型赛道全景图"，并预测了下一个跃迁的时间窗。

亮点

视频是 4D 物理世界的有损投影

聊到第 6 分钟，李智昊把所有"视频生成式"世界模型的根一句话点出来——它们都是"从视频出发"，把视频当成 4D 物理世界的投影来做建构。问题在哪？「它被拍扁了那一刻，就很多的物理规律就被丢失掉了。举个最简单的例子，我们两个人相遇，这手手之间错过——为什么一直视频生成会有很大的问题？因为他丢失了这种手的前后关系、深度的空间关系。」

这条路线非常的不本质

全集冲突感最强的一句直引。任鑫问：能不能像 GPT 那样用 Next Token Prediction，直接从视频里把 3D 理解逼出来？李智昊的回答：「其实每个人都有不同的观点。从我的视角来看，这条路线非常的不本质。 因为你妄图从这种海量的数据里面做推理、做建模，它其实并不是一个高效的表征。」一句话把今天市面上所有视频生成派的世界模型公司都点了名。

视频生成派的第二个死结：Latency

李智昊给视频派的第二个判断：现在通用做法是用 3D VAE 对原始视频进行压缩——「它不可避免的会对时间维度进行压缩，这样就会导致你在 latent space 想去做一个 action，得到的 feedback 会在几帧之后，甚至有可能一秒之后才有。相当于你在 Vivo 的自动驾驶 simulator 里踩了一下刹车，最后过了十几帧才得到一个 feedback。」对自动驾驶 simulator、机器人 RL 训练，这种 latency 是致命的。

Spark 3D 的路：4D 点云 + Motion 残差

具体怎么做？李智昊和团队的路是「直接对 4D 空间进行建模」——以 4D 点云作为表征，把点源拆成"静态 + motion 残差"两部分。静态部分用 3D 高斯压缩，动态部分单独用一个小 token 表征。「我每次只压一个小的残差，不会把整张图像进行压缩。」一次 action 只改 motion 那一小段 token——latency 死结解开。

大厂难以去从表征层面来做更改

任鑫问：这种事大公司不更适合干吗？人家有 10 万张卡。李智昊接着说：「其实我觉得这反而是我们差异化的优势。大厂他投入了非常巨量的资源去做每一次视频生成的训练……可能他下一个 Q 就要做超过他自己的 2.0、3.0……但其实他们非常难以去从表征层面来做更改。 每一次表征的更改都意味着你数据的推倒重来，也意味着从整个数据处理到整个压缩设计智能生成，所有的管线都可能要被重做。

壁垒在于表征的效率

聊到后半段最关键的一句立场宣告，李智昊接着说：「我觉得现在大部分人认为世界模型的壁垒还在于数据。我去采更多的 egocentric 数据……因此在同样的数据量下，我也需要加入更多的算力。我个人认为，包括我们 Spark AI 整个的姿态，还是认为壁垒在于表征的效率。 你如果把更多或者再多的资源投入到错误的表征上，只是把现在的这个天花板逐渐去逼近，而不是把天花板本身去捅破。」——这是直接反主流"数据 + 算力"派的立场。

两年内会被实现 4D 的 Stable Diffusion 时刻

任鑫问：4D 的「Stable Diffusion 时刻」会在两年内还是更晚一点？李智昊回答：「我觉得应该是在两年内，我们觉得还是比较有信心的。我们确实看到了一些迹象，我们认为两年内会被实现。」

任鑫追问：假设 12 个月后有重大突破，第 9 个月该干啥？李智昊给的方向：高精度多人 Minecraft / 4D 元宇宙；AI 生成游戏 + 3D 资产；机器人 simulator；个性化 3D 打印。

时间戳

00:04 一句话讲清楚他在干嘛——表征是底层暗线

02:35 Spark 3D 是怎么火起来的（5 月 1 日 Hugging Face Trending 第一）

03:29 压缩本身是一种表征方式

04:39 为什么 word model 必须做 4D 而不是 2D 视频

06:07 「我们把视频当做一个 4D 物理世界的有损投影」

07:52 视频生成路线的真正瓶颈：Latency

10:20 Spark 3D 的技术路径：4D 点云 + Motion 残差

18:14 4D 点云怎么压缩成 token

19:23 Ablation study：压缩好就能把智能上限提高

25:07 「大厂非常难以去从表征层面来做更改」

26:31 任鑫提炼："越小公司越应该做大事"

27:17 「我们其实真的是在做底层」

33:20 「这条路线非常的不本质」

34:59 任鑫讲佛教公案 / 35:30 李智昊技术解读

36:37 类比图像生成的 Stable Diffusion 时刻

39:36 「4D 跃迁，两年内会被实现」

41:05 To C 切入点：高精度多人 Minecraft

42:09 彩蛋：OnlyFans / NSFW 方向

43:15 游戏公司是天然客户：3D 一致性需求

45:08 世界模型赛道全景图（三类玩家）

47:58 「壁垒在于表征的效率」

51:12 一句话送给想跟图、跟 3D 创业的人

52:04 「下一个被突破的，可能就是 4D 物理世界」

53:21 任鑫收尾：做 AI 最痛苦的事

欢迎订阅「AI 炼金术」的播客，以及同名公众号、视频号

「AI 炼金术」是一档由徐文浩和任鑫——两位多年老友、AI 领域的资深从业者——打造的播客。这里是探讨 AI 和创业的理想聚集地，我们会邀请一线创业者、产品产品和科研学者，深入探讨 AI 如何重塑行业、变革生活，以及如何从 0 到 1 打造 AI 原生产品。

我们的讨论会涵盖多个话题：从 AI 如何改变世界的未来，到如何找到 AI 创业的 PMF；从如何利用 AI 降本增效，到怎样将 AI 技术融入日常生活……如果你对 AI、产品、创业感兴趣，这里有满满的干货和一线实战经验，欢迎关注并推荐给你的朋友，共同探索未来的无限可能！

商务合作：公众号「AI炼金术」菜单栏中【商务】获取联系方式

节目主理人：

徐文浩：某AI创业公司联合创始人，正在面向全球市场开发AI应用。连续创业者，参与过多家创业公司，拼多多早期员工。广告科技公司MediaV的算法和数据负责人，后被360收购。离开后加入成立不到1个月的拼多多。后创办了基于AI的海外客服聊天机器人公司 BotHub.AI 和海外社交电商平台 Bukito 都宣告失败。2023年再次下场创业。

任鑫：美元基金合伙人，主要在投资和孵化面向全球市场的 AI 应用。之前是连续创业者，曾经打造“今夜酒店特价”用移动互联网应用特价销售酒店尾房；被京东并购后内部创业“京东到家”开展本地即时零售业务；2015 年再次创业 Get 探索对话式人工智能助理成为先烈；2021 年出售公司，2023 年重新回到 AI 世界。

播客剪辑：

十六颗糖

BGM：

片头：Shortwire - Reconfig

片尾：Alex Siegel - Daydreaming Pilot