---
title: "刚刚，机器人练成了宁次的「白眼」：∞帧画面边看边3D重建我们的世界！"
source_name: "量子位"
original_url: "https://www.qbitai.com/2026/04/401743.html"
canonical_url: "https://www.traeai.com/articles/0a4c8cee-c876-458c-9541-05a9c35adeb3"
content_type: "article"
language: "中文"
score: 8.7
tags: ["3D重建","具身智能","计算机视觉","自回归模型","蚂蚁灵波"]
published_at: "2026-04-16T12:33:23+00:00"
created_at: "2026-04-16T14:04:00.59611+00:00"
---

# 刚刚，机器人练成了宁次的「白眼」：∞帧画面边看边3D重建我们的世界！

Canonical URL: https://www.traeai.com/articles/0a4c8cee-c876-458c-9541-05a9c35adeb3
Original source: https://www.qbitai.com/2026/04/401743.html

## Summary

蚂蚁灵波开源LingBot-Map，实现纯自回归流式3D重建，突破实时性、精度与显存限制，适用于机器人、自动驾驶等场景。

## Key Takeaways

- 提出几何上下文注意力机制，实现选择性记忆，显著降低显存消耗
- 在万帧长视频中保持稳定重建，刷新流式3D重建SOTA
- 仅需13.28GB显存，消费级GPU即可部署，推动具身智能落地

## Content

Title: 刚刚，机器人练成了宁次的「白眼」：∞帧画面边看边3D重建我们的世界！

URL Source: http://www.qbitai.com/2026/04/401743.html

Markdown Content:
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

2026-04-16 20:33:23 来源：[量子位](https://www.qbitai.com/)

具身圈开源了个SOTA

> 金磊 发自 凹非寺
> 
> 
> 量子位 | 公众号 QbitAI

刚刚，机器人的视觉，又达到了一个新的Level。

因为现在，一个新模型已经实现了**无尽流**：看∞帧视频可以稳定实时3D重建！

来，感受一下这个feel：

![Image 1](https://i.qbitai.com/wp-content/uploads/2026/04/a0eb4904ef874630f113b0b00e97fb14.png)

视频地址：

 https://mp.weixin.qq.com/s/h3UIMZn46LA2m570p9pKkw

或许有小伙伴要问了，**这有啥用啊？**

简单来说啊，若是这个模型放到**扫地机器人**身上，那它就能边打扫边认清家里的3D结构；若是放到**自动驾驶**身上，那就是边开车边算清路面情况。

有一种火影里宁次**白眼**的那种味道了。

（注：白眼的能力是360°无死角透视+极远的洞察力+看穿查克拉流动；对应这个模型的全方位空间感知、长序列不丢失细节的特点。）

![Image 2](https://i.qbitai.com/wp-content/uploads/2026/04/39fc7631bd153f7bce2f11b8c633709f.webp)

△图源由AI生成

这，就是**蚂蚁灵波**最新开源的**LingBot-Map**，一个专为**纯自回归的流式3D重建**而打造的基础模型。

![Image 3](https://i.qbitai.com/wp-content/uploads/2026/04/c8d1a05f737b24af46b86bd886dc9cfc.webp)

不同于此前具身智能视觉的3D重建，这一次，LingBot-Map做到了快、准、狠——

打破了**“既要实时、又要记路、还要省显存”**的不可能三角。

## 这种Level的流式3D重建，并不简单

在聊“流式3D重建为什么难”这个话题之前，咱们且需要先分清两个概念：普通3D重建和流式3D重建。

因为它俩可以说是完全两个维度的技术。

先来看**传统离线3D重建**（离线）。

它的本质用一种微妙的形容，大概就是**“事后诸葛亮”**，因为必须先拍完完整视频、存储所有帧画面，再集中算力全局建模。

这样做的缺点很明显就是速度慢、耗显存、无法实时交互，应用方面也能用在影视建模、数字孪生等静态场景，根本没法给需要实时决策的机器人、自动驾驶用。

但**流式3D重建**（在线）就不一样了，它是真能满足具身智能的核心刚需：

来一帧算一帧，边拍边建模、边感知边决策，和人类边走边认路的视觉逻辑高度一致。

不过看似简单，但在实现的过程中，业内公认的有三座大山挡在面前。

![Image 4](https://i.qbitai.com/wp-content/uploads/2026/04/650cfd0d8c893eba63fd588743db18bc.webp)

△图源由AI生成

**第一，记太多就爆显存。**

如果模型硬存所有历史帧，几千帧过后显存直接拉满，消费级显卡根本跑不动，工业设备也扛不住长时运行。

**第二，记太少就忘光光。**

若是只缓存最近几帧，模型会出现灾难性遗忘，长时间运行后轨迹疯狂漂移、重建场景扭曲变形，相当于人走久了忘了自己在哪。

**第三，精度速度不可兼得。**

要么建模精准但推理慢到卡顿，要么实时性够了但画面糊成马赛克，始终找不到平衡点。

更关键的是，之前绝大多数的流式方案，不是依赖测试时优化，就是用未来帧信息做全局校准，亦或者加入人工设计的关键帧规则，并非端到端的纯推理。

而LingBot-Map走的是**纯自回归**这条更难的路：严格遵循因果律，仅依赖历史帧信息推理当前帧，无任何后处理、无未来帧依赖、无人工优化规则，所有能力全靠模型端到端学习。

也正因为有了纯自回归的约束，相当于让蒙眼的人仅凭过往记忆走迷宫，既要求走得快、又要求记准路、还不能多耗脑力……

难，是真的难。

但蚂蚁灵波这一次，还真就把这个硬骨头给啃下来了。

## 像人一样选择性记忆

LingBot-Map背后技术的**灵感**，来源于**人**。

就好比咱们在大城市里逛街，却能做到不迷路，不是因为我们的大脑像录像机一样全程“录制”，关键在于大脑执行的是**选择性记忆**这个操作。

说白了，就是只记住有效、关键的帧。

LingBot-Map的核心，正是完美复刻了这种机制，名曰**几何上下文注意力**（Geometric Context Attention，GCA）。

更具体而言，LingBot-Map通过GCA，对记忆进行了非常精妙的**分层结构化管理**。

首先是**锚点（Anchor）**，它的作用让机器人记住**“我从哪来”**。

任何3D重建都需要一个绝对的坐标系和尺度基准，就好比人类进入陌生房间，会下意识记住门口位置当参照系，防止迷路。

LingBot-Map的锚点模块，就是起到这样的一个作用。

它会锁定初始几帧画面作为基准，固定全局坐标和尺度，如此一来，就解决了纯自回归模型容易出现的尺度模糊、坐标漂移等问题，给整个重建过程定好原点。

其次是**位姿参考窗口（Pose-reference Window）**，用来记住**“我身边有什么”**。

因为光有起点是不够的，要想走得稳，还得看清脚下的路。

于是团队便在LingBot-Map里设置了位姿参考窗口，它只保留最近的k帧的完整高维特征。

这部分记忆虽然是短期的，但信息极其丰富密集，这样就可以确保模型能够精准地捕捉局部的几何细节，让当前帧能够丝滑地与前几帧拼接在一起，让每一步都踩得极准。

最后就是**轨迹记忆**（Trajectory Memory），起到记住**“我走过的路”**的作用。

这也是LingBot-Map中非常关键的一个步骤。

对于那些既不是起点、也不在眼前，属于很久以前的中间历史画面，模型不再存储它们庞大具体的图像像素细节。

取而代之的是，它将这些历史帧的宏大信息，极致压缩成了区区6个极简的Token（包含相机、锚点和寄存器 Token），并打上时间戳（位置编码）。

对比传统因果注意力，LingBot-Map的单帧信息增长量直接降低80倍，哪怕处理万帧长视频，显存消耗也几乎恒定。

![Image 5](https://i.qbitai.com/wp-content/uploads/2026/04/a57777e73e00cf74157cf62284878d8c.webp)

三大模块协同发力，便是LingBot-Map打破不可能三角的关键原因了。

那么这套打法效果又如何呢？

## 实测拿下新SOTA

从论文中呈现的实验结果来看，LingBot-Map已经在多项权威基准测试中，全面碾压其它流式模型，稳坐SOTA之位。

首先是**长序列稳定性**。

在10000+帧的超长视频序列测试中，模型全程保持稳定重建质量，没有出现任何明显的轨迹漂移。要知道，同类纯自回归模型往往几百帧就开始扭曲，万帧稳定的表现，直接刷新了行业纪录。

![Image 6](https://i.qbitai.com/wp-content/uploads/2026/04/55180be0868b456474b8ce742dbbab1e.webp)

其次是**速度与精度**双突破。

在518×378的主流分辨率下，推理速度达到20FPS，比同类流式方法基线快了近一倍，完全满足机器人、自动驾驶的实时性需求。

在Oxford Spires、ETH3D、Tanks & Temples等权威数据集测试中，轨迹误差降低约77%，3D点云建模精度、全局一致性远超所有流式竞品，甚至比部分离线优化模型表现更优。

![Image 7](https://i.qbitai.com/wp-content/uploads/2026/04/f39903c53d0935ee24ee05db4fb347fa.webp)

除此之外，模型**运行显存**仅需13.28GB，普通消费级显卡即可流畅部署，彻底告别对高端专业显卡的依赖。

对比同类方案动辄30GB+的显存需求，LingBot-Map实现了“技术顶尖、落地亲民”，让流式3D重建具备了规模化商用的基础。

而且**效率测试**的数据更加直观。

对比全历史帧缓存方案，LingBot-Map用64帧窗口设计，将推理速度从3.12FPS提升至19.95FPS，显存从36.06GB压缩至13.28GB，速度提升6倍、显存降低63%，同时精度反而更高，印证了GCA记忆机制的优越性。

![Image 8](https://i.qbitai.com/wp-content/uploads/2026/04/70119b884538087d6afb0cdd8a15a86f.webp)

在看完LingBot-Map背后的技术和展现的效果之后，还有一个话题值得聊一聊：

LingBot-Map的开源绝不是为了单点刷榜、秀肌肉。

## 补齐另一块具身智能关键拼图

若是大家长期关注蚂蚁灵波，就不难发现它在下一盘大棋。

仅仅在今年1月，蚂蚁灵波便已经陆续开源了多款模型：

从感知世界的**LingBot-Depth**，到理解物理规律的**LingBot-World**，再到控制身体的**LingBot-VLA**和全球首个具身世界模型**LingBot-VA**。

而今天LingBot-Map的开源，则补齐了“边走边记、理解并重建连续真实三维空间”的关键拼图。

这就意味着蚂蚁灵波正式构建了**“感知-建模-模拟-控制”全链路具身智能技术栈**，从看懂世界、建模世界，到理解世界、操控身体，形成了完整的技术闭环。

此举对全产业落地来说，亦是有着重要的价值。举三个例便一目了然了：

*   机器人：仓库巡检、家庭服务，机器人不再需要昂贵的激光雷达，单靠摄像头就能边走边建图，真正实现低成本、大规模部署。
*   AR/VR：戴上眼镜，虚拟物体可以零延迟、不漂移地叠加在真实桌面上，虚实融合的体验将被拉满。
*   自动驾驶/无人机：城市级大场景的实时建模成为可能，为纯视觉的自动驾驶方案提供了更强大的时空理解能力。

因此，综上所述，LingBot-Map的出现，可以说是机器理解真实物理世界迈出的关键一步。

与此同时，蚂蚁灵波的持续开源，也让我们清晰地看到，具身智能的规模化落地，正在以前所未有的速度向我们驶来。

Hugging Face：

https://huggingface.co/robbyant/lingbot-map

ModelScope：

https://www.modelscope.cn/models/Robbyant/lingbot-map

GitHub：

https://github.com/Robbyant/lingbot-map

Paper：

https://arxiv.org/abs/2604.14141

Homepage：

https://technology.robbyant.com/lingbot-map

_版权所有，未经授权不得以任何形式转载及使用，违者必究。_
