Agent终于长出了身体:Jiuwen Symbiosis背后的思考与实践
TL;DR · AI 摘要
Jiuwen Symbiosis为AI提供了感知和行动能力,解决了AI缺乏身体的困境,推动了物理世界智能系统的演进。
核心要点
- Jiuwen Symbiosis通过态势感知环实现Agent的透明思考过程。
- AI缺乏身体是当前最大的局限之一,Jiuwen Symbiosis为AI装上了感知和行动的‘骨骼与肌肉’。
- 传统Agent操作的是数字世界,而Jiuwen Symbiosis让Agent走进现实世界,实现物理交互。
结构提纲
按章节快速跳转。
- §引言
文章讨论了AI缺乏身体的问题,并介绍了Jiuwen Symbiosis的解决方案。
莫拉维克悖论指出,对计算机来说,复杂的逻辑任务容易,而简单的身体动作却异常困难。
智能从数字世界到物理现实的演进过程分为1.0、2.0和3.0三个阶段。
Agent成为AI领域最火热的方向之一,但传统Agent仍操作数字世界。
Jiuwen Symbiosis通过态势感知环实现Agent的透明思考过程,解决复杂任务执行问题。
多模态感知使Agent主动感知世界,安全规划确保任务执行的物理可行性与安全性。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- Jiuwen Symbiosis
- 核心理念
- Agent拥有身体
- 透明的态势感知系统
- 关键技术
- 多模态感知
- 安全规划
- 态势感知环
- 应用场景
- 物理世界交互
- 复杂任务执行
金句 / Highlights
值得收藏与分享的关键句。
AI没有身体是当前最大的局限之一,Jiuwen Symbiosis为AI装上了感知和行动的‘骨骼与肌肉’。
传统Agent操作的是数字世界,而Jiuwen Symbiosis让Agent走进现实世界,实现物理交互。
Jiuwen Symbiosis通过态势感知环实现Agent的透明思考过程,解决复杂任务执行问题。
Agent终于长出了身体:Jiuwen Symbiosis背后的思考与实践 – 量子位
扫码关注量子位
<div class="top_search"> <form role="search" method="get" class="search-form" action="https://www.qbitai.com/" id="search"> <label> <input type="search" class="search-field" placeholder="搜索…" value="" name="s"> </label> <button type="submit" class="search-submit"></button> </form> </div>
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">
articlead begin
articlead end
Agent终于长出了身体:Jiuwen Symbiosis背后的思考与实践
一水
2026-06-13
16:11:07
来源:
量子位
摘要样式
一起构建下一代物理世界的智能系统
如果你在三年前问AI圈:未来最强的AI长什么样?
大部分人可能会回答,一个更大的GPT,更多参数,更长上下文,更强推理能力。
然后我们一路从GPT-3.5走到GPT-4、Claude、Gemini、DeepSeek、Qwen。
直到今天,突然发现一个有趣的问题:AI已经学会写代码了,学会做数学题了,甚至学会和你讨论人生意义了,但它依然不会给自己倒一杯水。
这正是当前AI最大的局限之一:
AI没有身体。
今天,openJiuwen社区正式开源 Jiuwen Symbiosis ,一个专为更高阶的physical AI打造的Symbiosis(共生)架构。
从虚拟数字世界到真实物理世界,我们给AI装上了感知和行动的“骨骼与肌肉”。
Gitcode传送门: gitcode.com/openJiuwen/jiuwensymbiosis
(动动小手,Star一下不迷路⭐)
Moravec悖论:最难的不是高数,而是走路
1988年,机器人学家Hans Moravec提出了后来著名的Moravec’s Paradox(莫拉维克悖论),其核心思想非常反直觉:
对于计算机来说:
- 下国际象棋很容易
- 做高等数学很容易
而对于人类婴儿都能完成的事情,反而异常困难:
- 行走
- 抓取
- 避障
- 保持平衡
原因很简单,这些能力并不是逻辑推导出来的,而是数百万年进化形成的身体智能。
这就是大模型时代的 “缸中之脑” 困境:智商200,但没有实体,对真实物理世界的摩擦力、重力和空间几何一无所知。
从“缸中之脑”到“身体力行”:智能的进化史
智能对外在机器本体控制的演进,本质上就是一场从数字世界到物理现实的历程:
1.0手搓任务(借助人的辅助):
依靠人的理解,进行极为原子化的控制操作。
2.0虚拟环境演练(Sim2Real):
在Habitat、AI2-THOR等仿真环境里模拟,开始有了空间概念,同时训练一个或多个模型,使得大脑可以分析理解指令,并进行任务执行。
在2.0这个阶段,一系列的问题会凸显出来,最为人诟病的是:
- 缺乏跨本体环境泛化能力 :模型一旦训练完成,其技能集合即固化。要让机器人学会“开抽屉后抓取内部物体”,需要重新采集数据、重新训练整个模型。VLA缺乏组合泛化能力——无法将已学的“开抽屉”与“抓取”零样本组合为新任务。
- 长程复合任务能力不足:当前模型擅长短程原子操作(如“抓取红色方块”),但面对长程复合任务(如“从料架上取Tray盘→绕过设备→放入机台→按压确认→返回原位”),单一VLA模型缺乏任务分解、子任务编排、异常回退的能力。它只能在训练分布内“模仿”,无法在运行时“规划”。
- 故障定位困难:当前模型将“视觉→语言理解→物理推理→动作生成”全部压缩进一个Transformer,运行时失败(如抓取偏移、碰撞)无法定位故障根因——是感知误识别、语言歧义、物理推理错误,还是控制轨迹发散。
- 成功率低,稳定性差:当前模型端到端基础模型为典型黑盒结构,直接输出关节位姿等底层动作指令,大模型兼顾认知决策与运动控制,整体实现难度大,模型稳定性差、任务成功率低。
3.0共生时代(Jiuwen Symbiosis正在做的):
模糊虚拟与现实的边界,让Agent能够真正理解物理法则,并直接输出控制硬件底层拓扑的Action序列。
Agent时代的到来
2023年以后,Agent成为整个AI领域最火热的方向之一。
大家发现:大模型已经具备不错的推理能力,真正缺少的是 行动能力 。于是出现了:
- Tool Calling
- Function Calling
- MCP
- Browser Agent
- Computer Use Agent
Agent开始获得操作世界的能力,它们不再只是回答问题。但这里依然存在一个问题:这些Agent操作的仍然是数字世界。
不是物理世界。
但经过一系列的演进,openJiuwen团队相信具有物理能力的Agent时代已经悄然到来,它比前辈们向着真实世界更加向前迈进了一步。
下一步是让Agent走进现实世界。简单来说,传统Agent可以简化为如下过程:
而physical AI Agent的模式发生了本质的改变——Agent不再面对文本,而是面对真实世界,需要与现实环境进行交互反馈,整体过程可以简化为如下:
但openJiuwen团队认为这依然是远远不够的,人类在执行任务的过程中,观察、反馈等过程是一个不间断的实时系统。
同时,理论上,从传感器–>VLM–>LLM–>Planner–>ROS的整个过程看起来是非常优雅,但实际执行过程中,极有可能变成JSON的极限堆积,并且系统越复杂,这个现象越明显。
最终导致,Agent到底在想什么,为什么做出这个决策,为什么执行失败,全部变成糊涂账。
Jiuwen Symbiosis:让Agent拥有透明的态势感知系统
Jiuwen Symbiosis的设计理念非常简单:
Agent的思考过程应该是可观察、可调试、可协作的。
团队尝试把Agent的内部状态显式暴露出来,而不是隐藏在黑盒中。
在Jiuwen Symbiosis中:认知层与执行层通过共享Workspace协作,解决复杂任务执行,保障认知正确与快速响应,并极大简化跨本体适配。
同时,其实现过程又是丰富且严谨的,openJiuwen团队将这个核心骨架称为: 态势感知环(Situation Awareness Loop) 。
在此基础上,团队增加了若干功能模块,例如安全规划,状态感知,观测反馈,空间记忆等关键技术模块。
多模态感知(Multimodal Perception)
使physical AI Agent主动感知世界,是Agent由数字走向物理的基础。
同时,把理解从决策中分离,在进行Action之前对场景进行充分理解,产出结构化世界状态,例如被检测对象、对象位姿、置信度等。
安全规划(Safe Planning)
基于Prompt任务指令与结构化世界状态,进行任务规划,对相关Skill中的参数动态赋值,并进行物理可行性、安全性与约束校检,拒绝不可执行方案。
物理执行(Physical Action)
按照Skill的建议,调用相关Action Tool原子能力,最终完成位移、抓取、放置、交互等一系列连续可控的物理运动。
状态观察(Observation)
负责对物理动作执行后的真实世界状态进行采集与结构化提取。
通过视觉等传感器获取执行结果,识别物体位姿、环境变化、交互效果等关键信息,输出结构化的世界观测状态,为后续Feedback偏差计算提供客观依据。
观测反馈(Feedback)
基于观测结果构建闭环修正机制,将执行偏差、异常状态、成功/失败判据回传至推理与规划模块。
实现动作参数实时调整、规划序列动态优化、异常场景自主恢复,同时沉淀交互数据用于技能迭代,形成“感知-规划-执行-观测-反馈”的完整闭环,持续提升态势感知规划的鲁棒性。
空间记忆(Spatial Memory)
通过物体级感知,实现对空间的对象化表征(如3D Scene Graph),构建物体级的空间关系;通过变化检测技术发现事件,自动化增量式维护空间关系。
同时,通过时间维度压缩,空间层级聚合和情景事件聚类,形成多时空尺度的组织,使能任务驱动的空间上下文构建。
拥有以上能力的physical AI Agent将为行业带来如下变化,体现在如下方面:
- Zero跨本体,跨环境自主适应泛化能力;
- 针对复杂任务,具备自主拆解,分步执行能力;
- 减少对训练数据的依赖;
- 本体操作的自我总结与进化能力。
用户视角下的Jiuwen Symbiosis:
从用户视角,Jiuwen Symbiosis就是一个 “能懂人话、看得见物理世界、长了四肢的智能助手” 。
用户不需要示教,不需要教它怎么抓东西,怎么走路,就像指挥一个经验丰富的工人一样,用自然语言下任务,它就能自己完成感知、理解、规划、执行。
Symbiosis:共生,而非控制
为什么叫Symbiosis?
因为我们相信未来并不是:
而是:
这是一种新的持续协作关系。在这个系统中,Agent不只是工具,而是长期合作伙伴。
它能够:
- 理解目标
- 主动规划
- 请求帮助
- 从反馈中学习
从而形成真正的人机共生。
我们将教给机器人How,而不是传统的What,允许尝试并及时纠错,沉淀经验,最终达到自我演进的目标。
终极的physical AI不会由某一家企业完成,正如Linux没有由一家公司构建,ROS没有由一家公司构建。未来的行业生态也需要开放协作,因此openJiuwen团队决定 开源Jiuwen Symbiosis 。
希望它成为一个透明的Agent for Physics、一个可扩展的physical AI框架、一个连接大模型与机器人世界的桥梁。
共生的另一层解读是 算力生态的亲和共生 。
Jiuwen Symbiosis轻量化的视觉感知模型可部署在本地端侧,消耗显存较低,对包括Ascend在内的多种生态,都可以有较好的适配,例如采用Ascend-SACT/GroundingDINO等。
其输出结果完全兼容主流检测格式,可直接对接昇腾版及其他生态兼容模型,完成下游任务联动。
Jiuwen Symbiosis与昇腾、鲲鹏
很多physical AI系统仍然沿用“大模型+GPU”的思路。
但在真实机器人场景中,问题往往不是单纯的模型推理,而是如何让 感知、认知、规划和执行 在有限功耗和有限带宽下形成稳定闭环。
Jiuwen Symbiosis从设计之初就采用了端云协同架构:其中,大规模推理和复杂规划运行在云侧LLM/VLM,端侧则专注于实时感知与执行。
这种架构与昇腾、鲲鹏的异构计算能力形成了天然匹配:
- 昇腾提供较高TOPS的AI推理能力,可承担目标检测、视觉理解、多模态感知等高频任务;
- 鲲鹏CPU则负责工具调度、任务编排、状态管理以及机器人控制逻辑,实现低延迟、高可靠的执行链路。
更重要的是,Jiuwen Symbiosis继承了OpenJiuwen在鲲鹏与昇腾生态上的优化成果。
在某些场景中,系统能够将规划负载卸载到昇腾NPU,将Agent Runtime、Memory、Workspace、Tool Calling等逻辑运行在鲲鹏CPU上,从而避免传统GPU方案中“所有任务争抢同一计算资源”的瓶颈。
最终形成一种更符合机器人运行规律的资源分工。
这种分层架构不仅提升系统吞吐能力,也显著降低了端侧部署成本和整体功耗,使Jiuwen Symbiosis能够更自然地运行在机器人、机械臂、四足机器人以及边缘智能设备等真实场景中。
未来
今天的Agent已经学会阅读,正在学会思考。
下一步,它们将学会行动。
而当感知、认知与行动形成闭环时,真正的physical AI时代也许才刚刚开始。
如果你也在探索:
- Embodied AI
- Robotics Agent
- VLA/VLM
- World Model
- Physical Intelligence
- ROS2
- Multi-Agent Systems
欢迎加入openJiuwen社区,一起构建下一代物理世界的智能系统。
华为云AgentArts也已将openJiuwen引入到商业化平台能力中,开箱即用,访问 华为云官网 即可体验。
*本文系量子位获授权刊载,观点仅为原作者所有。
版权声明
版权所有,未经授权不得以任何形式转载及使用,违者必究。
华为云
作者文章列表
- 马斯克远程敲钟穿了老黄的皮衣!SpaceX员工集体穿上绿鞋 2026-06-13
- “智能体最后的考试”,Fable 5竟然不敌GPT 5.5 2026-06-12
- Mythos阴影里谷歌悄悄发模型,速度暴涨4倍 2026-06-11
- 国产通用大模型第一梯队,来新人了?! 2026-06-09
左侧分享
扫码分享至朋友圈
相关阅读 start
相关阅读
#### 中国研究登顶刊:AI辅助医生检测脑动脉瘤,灵敏度达97.5%
华为ModelArts大显神通
十三
2020-11-09
AI医疗
ModelArts
#### 《雄狮少年2》背后的硬科技:全片渲染量超4亿核小时,每一拳都有真实“打击感”,赞奇&华为云支持
赞奇科技联手华为云担纲影片渲染
允中
2024-12-27
云渲染
赞奇科技
#### 华为云田奇:云原生时代,视觉预训练大模型探索与实践
近日,在Qcon全球软件开发大会(深圳站)上,华为云人工智能领域首席科学家、IEEE FELLOW田奇博士,作了题为“云原生时代,视觉预训练大模型探索与实践”的主题演讲,介绍了云原生时代华为云在AI基础研究、视觉预训练模型研发和行业实践,以及AI开发平台ModelArts的最新进展。
鱼羊
2020-12-08
田奇
#### 华为云再掀算力风暴:CloudMatrix384超节点将升级,Tokens服务性能最大可超H20四倍
十年积累孕育“算力黑土地”
明敏
2025-09-20
CloudMatrix384
#### 华为云发布乌兰察布汽车专区和自动驾驶开发平台,加速汽车产业数智升级
华为云正式发布乌兰察布汽车专区,为自动驾驶场景提供安全合规、全栈自主创新、具有澎湃算力的云基础设施。
智能车参考
2023-07-26
华为
自动驾驶
#### 游戏企业通关秘籍:华为云游戏全场景能力,开发+部署+运营“关关难过关关过”
给游戏叠满技术buff
萧箫
2022-09-06
云计算
游戏
相关阅读 end
热门文章 start
热门文章
#### 腾讯想让企业打开AI的方式只剩一个
2026-06-09
#### DeepSeek开招土木老哥:自建GW级数据中心
#### GPT-5.6首批实测来了!精准狙击Mythos
2026-06-10
#### 英特尔锐炫™ Pro B70 GPU亮相MPTS2026,共探大视听时代AI创作新范式
#### 中国第一、全球第二!HiDream-O1-Image-1.5 登顶文生图榜单,超越谷歌、英伟达
<form role="search" method="get" class="search-form" action="https://www.qbitai.com/"> <label> <span class="screen-reader-text">搜索:</span> <input type="search" class="search-field" placeholder="搜索…" value="" name="s" /> </label> <button type="submit" class="search-submit"><span class="screen-reader-text">搜索</span></button> </form>
热门文章 end
底部版权
- 关于量子位
- 加入我们
- 寻求报道
- 商务合作
<a href="/?page_id=183"target="_blank"><i class="weixin_icon"></i></a>
追踪人工智能新趋势,报道科技行业新突破
<p>量子位 QbitAI 版权所有©北京极客伙伴科技有限公司 京ICP备17005886号-1</p>
量子位 QbitAI 版权所有©北京极客伙伴科技有限公司 京ICP备17005886号-1