---
title: "横扫全球15项SOTA！高德首个面向AGI的全栈具身技术体系大公开"
source_name: "量子位"
original_url: "https://www.qbitai.com/2026/04/403226.html"
canonical_url: "https://www.traeai.com/articles/7083a60a-19b3-45a3-b589-35831367d3a4"
content_type: "article"
language: "中文"
score: 7.5
tags: ["具身智能","AGI","世界模型","高德","机器人操作系统"]
published_at: "2026-04-19T10:13:54+00:00"
created_at: "2026-04-19T13:17:16.125609+00:00"
---

# 横扫全球15项SOTA！高德首个面向AGI的全栈具身技术体系大公开

Canonical URL: https://www.traeai.com/articles/7083a60a-19b3-45a3-b589-35831367d3a4
Original source: https://www.qbitai.com/2026/04/403226.html

## Summary

高德发布ABot全栈具身智能体系，基于可交互世界模型和物理思维引擎，在15项国际评测中达SOTA。

## Key Takeaways

- ABot通过双引擎架构实现高保真、可编程的物理交互场景生成
- 摒弃传统像素优化，采用物理判别机制确保动作符合真实规律
- 依托高德地图数据优势，构建覆盖99%生活场景的数字孪生训练环境

## Content

Title: 横扫全球15项SOTA！高德首个面向AGI的全栈具身技术体系大公开

URL Source: http://www.qbitai.com/2026/04/403226.html

Markdown Content:
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

2026-04-19 18:13:54 来源：[量子位](https://www.qbitai.com/)

当行业在底层基础设施上开始成型，局面就会迅速收敛

> 一水 发自 凹非寺
> 
> 
> 量子位 | 公众号 QbitAI

等等——你是说，**高德也闯入具身智能赛道了**。

咱品，咱细品。一个国民级导航APP，怎么就和机器人、机器狗这些铁家伙联系起来了。

难道说，高德也开始跟风搞噱头了？？

![Image 1](https://i.qbitai.com/wp-content/uploads/2026/04/f32c9ad8716c5e86440feb905983b57a.png)

细一吃瓜才知道，误会了家人们：

这件事并非噱头，人家不仅有实打实的东西，而且成绩还位列全球第一梯队。

揭开面纱你会看到，高德这次带来了**首个面向AGI的全栈具身技术体系ABot**——

AGI、全栈、具身，这几个词我都懂，但放在一起到底啥意思？

再一看才明白，原来这是一套让机器人/机器狗（当然也不止这些），从炫技表演到真正走进现实世界帮大家干活的完整解决方案。

大多数行业玩家还在卷单点突破的时候，**高德却率先把数据、模型、Agent从下到上全打通了**。

而且得益于地图时代攒下的底层数据优势，其世界模型近期在依托CVPR 2026 Video World Model Workshop举办的国际挑战赛中，分数超过谷歌英伟达。ABot体系横扫具身智能全球15项SOTA，跻身全球第一梯队。

看到这儿，估计你和我一样好奇：

**一个做导航的，凭什么能在具身智能赛道跑到前面？**

（别急，咱火速开扒gogogo）

## 原来不是“数据多”就行了

答案，很多人第一反应可能是“数据”。

毕竟瞟一眼高德ABot全栈具身技术体系，最底层的就是数据。

*   **数据层**：ABot-World可交互世界模型
*   **模型层**：导航基座模型ABot-N/执行基座模型ABot-M
*   **Agent层**：机器人应用层操作系统ABot-Claw

但如果你只看到“数据”，那就错过了高德真正的杀手锏——

**它没有停留在“数据多”，而是构建了一个“物理优先、动作可控、闭环进化”的机器人世界操作系统**。

这是一个从“视觉渲染范式”向“可微分物理引擎范式”的根本性迁移。

当其他模型还在生成“看起来像”的视频时，高德的ABot-World已经在输出“符合物理规律”的动态变化过程。

它不只告诉你“发生了什么”，更告诉你“为什么发生”、“如果这样做会发生什么”。

而这，才是它成为全球唯一三项指标（物理合规性/动作可控性/零样本泛化）全面SOTA的真正原因。

所以，**与其说高德赢在“数据”，不如说它赢在范式创新+系统工程+物理智能内核**。

![Image 2](https://i.qbitai.com/wp-content/uploads/2026/04/56776f4155f55383b45441318ae502ba.jpeg)

## 核心解决思路：可交互世界模型

具体来说，面对“如何让机器人理解真实物理世界”这一终极挑战，高德没有选择传统的“采集→标注→训练”路径，而是另辟蹊径——

**它没有去“收集数据”，而是去“重建物理世界”**。

传统方法要么靠人拍（众包），要么靠机器跑（遥控），成本高、效率低、覆盖窄。

而高德的答案是：

> 与其等待机器人在真实世界中缓慢积累经验，不如先在高保真的数字世界中，高效、批量地生产具身智能所需的一切物理交互场景。

而这，正是高德推出的可交互世界模型ABot-World的核心使命——

**构建一个可交互、可推演、可进化的机器人世界操作系统**。

，时长02:25

等等，这不就是数据合成、数据仿真那一套吗？

继续深挖才发现，**虽然二者思路看起来相似，但底层逻辑其实不太一样**。

个人理解，合成仿真有点像“照猫画虎”，目标是让模拟尽可能逼近真实。

而高德恰恰相反，它不是从零去模拟真实，而是基于现成的真实世界数据，把场景还原出来拿给机器人用。

所以，哪个更精准就不用多说了吧…

说实话，对高德来讲，“精密重建与理解物理世界”几乎就是自己的看家本领——

**毕竟它每天都在做的，就是把来自卫星、街景车、众包设备的大量数据，一点点拼起来，变成一个能被机器理解和计算的数字世界**。

emmm……光看文字可能还有点抽象，但转念一想：

这不就是我最近骑行时打开高德看到的画面吗？

只不过以前是给人交互，现在则更往底层走——变成了可以让机器“理解”和“交互”的训练环境。

![Image 3](https://i.qbitai.com/wp-content/uploads/2026/04/9b026b5a1643ffeaf8b74ca694d00dea.jpeg)

到这里，我已经搞懂高德ABot-World背后的原理了，但我想知道的可不止原理——

**具体方法论呢？？**

所以我又接着扒了一下高德ABot-World的具体运作过程。

## 具体落地：一套双引擎架构

先从最直观的外观说起，ABot-World采用的是双引擎驱动架构：

*   **ABot-3DGS**：物理世界的“数字孪生工厂”
*   **ABot-PhysWorld**：因果推演的“物理思维引擎”

一开始还以为这不过是简单的“数据生成+模型训练”，但看完才发现，它这是一个完整的物理智能操作系统。

![Image 4](https://i.qbitai.com/wp-content/uploads/2026/04/37e2fd43d906f55f3aec80754d52c241.png)

**先说ABot-3DGS**。

都工厂了，你就知道高德这是在对传统那套“贵、慢、覆盖不全”的数据生产方式，来了一次彻底的重拳出击。

具体来说，它这次干了这样一件事：

> 以高德积累的厘米级城市、道路、室内空间数据+真实轨迹数据为基础，结合前沿的3DGS技术，构建可编程的数字孪生空间。

**划重点，可编程**。说白了就是，现在你可以随心所欲生产数据了。

在ABot-3DGS里，数据不再受制于采集条件——**任意视角、光照、遮挡状态都可以直接生成，机器人形态也能灵活切换，不同执行体之间的差异被抹平**。

更关键的是，这套体系可以系统性补齐那些过去最难覆盖的部分：

**长尾交互场景**（也就是机器人容易翻车的地方）。

通过大规模组合与仿真，极端情况、突发干扰都能提前构造出来，最终把覆盖率推到99%。

就是说，模型最容易出问题的那一小撮情况，基本都被提前见过、练过了。

还有一个更关键的突破——

**这里的“空间”不是只有几何外观，而是带物理属性的**。每个物体都会被赋予质量、摩擦系数等参数，从一开始就构成一个可计算、可干预的物理环境。

啥叫可干预？其实就是通过编程改参数。

比如把一个物体的质量调大，机器人抓取时需要的力度、轨迹都会随之改变；把地面的摩擦系数调低，同样的动作就可能打滑失败。

于是你发现没，ABot-3DGS已经不是数据增强工具，而是在主动创造一个比现实更丰富、更可控、更物理一致的“训练宇宙”。

![Image 5](https://i.qbitai.com/wp-content/uploads/2026/04/1e5a84d350a9b67052b37405f04770b3.jpeg)

好，现在我已经明白ABot-3DGS可以解决“数据稀缺”的问题了，但我还是不清楚其中的细节：

**高德积累的那些真实时空数据，是怎么一步步变成“机器人能用的训练材料”的？**

顺着网线再扒了一圈，脑海里自动浮现了这样一句口号：**一翻译二重建三Run**。

“一翻译”是指先把数据转成机器能读懂的“多模态Clip”。

比如骑车经过一个路口，高德记录下来的不只是“一张图”，而是一整套信息——

包括路口长什么样（图像）、红绿灯在哪（空间位置）、现在是红灯还是绿灯（状态）、你是直行还是准备转弯（行为），甚至还包括周围有没有行人、车辆在动。

所有东西打包在一起就是一个Clip，而高德手里有千万级这样的Clip。

，时长01:03

当机器拿到这些信息后，ABot-3DGS就能把路口、街道、商场这些地方重建出来，形成万级规模的3D真实场景。

P.S. 看了下万级规模的概念，基本上能覆盖99%的典型生活场景了。

而且由于前一步拿到的信息都是自带物理规则和空间逻辑的，所以这里的3D数字场景也都是“活”的。

然后就是最后一步——Run起来。

把机器人丢进去，让它在里面走一遍、做一遍，千万级训练轨迹数据，就这么批量生成。

![Image 6](https://i.qbitai.com/wp-content/uploads/2026/04/fb807690cfa29062bfe7822aa8510c80.png)

到这里，剩下的问题就只有一个了：

**怎么解决“懂物理”这个行业公认的老大难？**

ABot-PhysWorld为此而生。

它基于14B参数的DiT主干构建，本质是一个物理思维引擎，回答的是机器人最核心的问题：

“如果我这样动，接下来会发生什么？”

，时长01:04

为了打造ABot-PhysWorld，高德做了三件不同寻常的事：

**数据层面**，高德精选300万条真实操作视频，用VLM+LLM双阶段标注，构建四层级物理语义结构（意图→动作→轨迹→物理关系），奠定因果推理基础。

简单来说，就是将数据拆解成机器人更易“消化”的结构化信息：

*   **宏观层**（意图）：自然语言描述整体任务目标，如“抓取并放置苹果”。
*   **中观层**（动作序列）：动词-名词短语序列，如“接近→抓握→提起→移动→释放”。
*   **微观层**（轨迹细节）：记录笛卡尔轨迹、相对运动、夹爪状态，如“末端沿Z轴下降5cm，夹爪闭合至20mm”。
*   **场景层**（物理关系）：描述接触、支撑、包含关系及任务结果，如“苹果与桌面接触，被夹爪稳固抓握，成功放置于袋中”。

看到没，这套标注流程不仅在告诉机器人“发生了什么”，更在解释“为什么发生”。

![Image 7](https://i.qbitai.com/wp-content/uploads/2026/04/570241d2887dd2d29a9350dc731a35da.png)

**训练层面**，高德摒弃传统MLE（像素相似度优化），引入“物理判别机制”。

所谓MLE，是指给模型看大量真实视频，让它预测“下一帧应该长什么样”，预测得越像真实的那一帧（像素差异越小），得分越高。

换言之，这一机制下模型只关心“画面对不对”，不关心“物理对不对”。

所以高德通过两个核心组件，把优化目标从“像素相似度”转向“物理一致性”：

*   **Proposer module**：负责根据当前任务，列一份物理规则清单，说清哪些能做，哪些绝对不行。
*   **Scorer module**：对模型生成的多个结果逐帧打分。

**然后用Diffusion-DPO强化合规行为**——

物理正确就奖励，物理错误就扣分。

反复纠正下来，模型自然学会了“什么动作不违反物理”。

至此，ABot-PhysWorld已经能够根据输入的末端位姿和夹爪状态，推演出未来的时空动力学变化——指令即因果，不再只是像素层面的“看起来像”。

![Image 8](https://i.qbitai.com/wp-content/uploads/2026/04/945114556bdf2d3070bad6b2ecabc755.png)

**输出层面**，ABot-PhysWorld的每一帧不仅是像素，更是包含质量、接触力场、惯性张量的可微分物理状态快照，支持“动作条件化推演”与“零样本泛化”。

这意味着，给它一个动作指令（比如“下降5cm、夹爪闭合”），它就能精准算出接下来会发生什么，而不是靠“猜”。

哪怕遇到从没见过的物体或机器人，它也能根据质量、摩擦、惯性这些通用物理规律做出合理判断，不需要重新训练。

这三招下去，结果是，那些困扰行业已久的“低级错误”开始从根源上消失了——

**物体不会穿透、夹爪不会无接触抓取、动作不会反重力悬浮**。

因为，机器人已经不再是机械执行指令了，它开始知道“为什么不能这么做”。

而当把两个引擎放在一起，你会发现ABot-World内部已经形成了一个持续增强的“数据-模型”飞轮。

ABot-3DGS负责造数据，ABot-PhysWorld负责学物理——

前者不断生成高质量训练材料，后者不断提升对真实世界的理解。

但这个飞轮不止于此。

ABot-World不是一个静态模型，而是一个具备自我修正能力的认知基座——

它还能接入真实世界的执行反馈，让自己越用越准。

具体来说，**它支持完整的VLA闭环**（预测→执行→反馈→自我修正）。

比如机器人根据ABot-World的推演去抓杯子，结果实际执行中夹爪滑脱了。这个误差信号会立刻回传给ABot-PhysWorld，模型自动调整参数，下次预测就会更精准。

对整个行业来说，这种“自生长、自修正、自适应”的能力，意味着机器人不再依赖人类演示，而是能在真实环境中持续进化。

而这，或许才是AGI时代机器人应有的“操作系统级”能力。

![Image 9](https://i.qbitai.com/wp-content/uploads/2026/04/2aa959d6474c2304fa54a9431b207d7b.png)

到这里，我对高德如何使用自己的数据已经很清晰了，咱捋一捋：

核心解决思路是“可交互世界模型”，世界模型的数据来自ABot-3DGS，经“一翻译二重建三Run”加工成训练材料，物理对齐则交给ABot-PhysWorld完成。

这一整套下来，高德本质上其实干了两件事：

**一是把数据生产成本打下来了，二是把“物理正确”这件事，真正嵌进了系统里**。

成本下降，意味着能喂给模型的数据量可以做到足够大；物理正确，意味着喂进去的数据质量足够真。

当“量大”和“真实”同时满足，模型看到的不再是零散样本，而是接近真实世界分布的数据——

于是它学到的也不再是“某几个场景的解法”，而是更通用的物理规律。

这样一来，具身智能最后的大BOSS——**泛化问题**，也就真正有了被攻克的可能。

就是说，数据开始反过来定义模型能力本身以及边界了……

## 为什么是高德？

看到这里，估计大家和我一样，终于反应过来高德凭啥跑到具身赛道前列了。

说白了，这不是一次跨界，而是一次升维：

**从给“人”导航，到给“机器人”构建物理世界的操作系统**。

高德真正的护城河，从来不只是“数据多”——

还有过去地图时代练出来的空间理解、地图构建、实时更新能力，这些共同构成了它难以被复制的底气。

这当中，尤为值得一提的就是一张关键王牌：**业界领先的POI（兴趣点）数据库和路网语义信息**。

![Image 10](https://i.qbitai.com/wp-content/uploads/2026/04/d290daba50c9da033fd0ea08b4e9b95d.png)

说人话就是，高德给ABot-World提供的数据都是**带“语义”的**——

不只是几何轨迹，还有“这里是星巴克的入口”、“前方是人行横道”、“左转50米是停车场出口”等语义锚点。

为什么这很重要？

因为行业里大多数机器人的导航训练，用的只有几何坐标和视觉特征。

机器人只是知其然，而不知其所以然。

它可以学会从A走到B，但很难理解为什么这里要绕行、为什么这里要停一下、为什么这条路更安全。一旦环境稍微变化，比如多了行人、临时施工、规则调整，就很容易出错。

**而带语义的数据，相当于把“规则”和“常识”一起教给它**。

这也是为什么，它更容易直接落到真实世界里用。

恰逢北京亦庄机器人半马，高德也带着它的四足机器狗亮相了——

它已经能帮助盲人朋友走出家门，实现精准导航。

![Image 11](https://i.qbitai.com/wp-content/uploads/2026/04/a2b3a485cbee15f5dade675df2559164.jpeg)

实际上，抛开所有技术不谈，从地图时代到现在，高德的角色其实并没有变——

以前，它是连接人和现实世界的基础设施；现在，它开始变成连接机器人和物理世界的基础设施。

只不过服务对象变了，能力边界被放大了。

![Image 12](https://i.qbitai.com/wp-content/uploads/2026/04/30bd2c1512dd4380743549ad4688fc1f.png)

当然更重要的是，高德已经决定**把ABot-World开源了**。

它正提供一个统一的、物理合规的、可进化的机器人世界模型操作系统，让所有开发者都能在其上构建自己的Agent、训练自己的机器人。

从这个角度看，**高德这次亮剑的并不只是一款产品，而是一个面向下一代机器人智能的底层平台**。

有了这个平台，行业就不用再各自重复造轮子了，以前数据不够、仿真又不够真的问题，也会被系统性缓解。

由此我们看到，一个统一的“操作系统”正在成型，而生态也将围绕这一底座快速收敛并加速爆发。

只能说，高德的心思不要太好懂（doge）——

一边把底座铺好，一边把生态带起来。

等大家都在这套体系上跑起来，它自然也就站在了具身赛道最核心的位置。

## One More Thing

2026年，具身智能赛道依然热火朝天，融资纪录不断刷新。

但历史经验告诉我们：

**当行业在底层基础设施上开始成型，局面就会迅速收敛**。

就像TCP/IP统一了网络连接方式，Linux成为事实上的操作系统底座，云计算把算力变成公共资源——

现在的具身智能，正站在从“百花齐放”走向“生态收敛”的临界点。

**而高德，已经率先亮剑**。

横扫15项SOTA、“拿下全球唯一三项指标全面领先”、发布首个“物理优先”的世界模型操作系统——

这些不只是数字和称号，而是它已经站上牌桌的证明。

站在高德的角度而言——

无论最终谁能胜出，它都已经为行业铺好了通往AGI的第一块基石。

（好好好，原来你小汁打的是这个主意…）

_版权所有，未经授权不得以任何形式转载及使用，违者必究。_