---
title: "生数科技认领神秘登顶模型：AI视频公司拿出工业级Demo，跨本体跑通复杂长程任务"
source_name: "量子位"
original_url: "https://www.qbitai.com/2026/04/411336.html"
canonical_url: "https://www.traeai.com/articles/6c1a687d-c340-4c11-8940-1909ad5e88b1"
content_type: "article"
language: "中文"
score: 8.5
tags: ["AI","机器人技术","具身智能"]
published_at: "2026-04-30T00:35:15+00:00"
created_at: "2026-04-30T01:48:49.894147+00:00"
---

# 生数科技认领神秘登顶模型：AI视频公司拿出工业级Demo，跨本体跑通复杂长程任务

Canonical URL: https://www.traeai.com/articles/6c1a687d-c340-4c11-8940-1909ad5e88b1
Original source: https://www.qbitai.com/2026/04/411336.html

## Summary

生数科技发布的MotuBrain模型在WorldArena和RoboTwin2.0两个国际benchmark上同时登顶，展示了其在物理世界理解和行动上的卓越能力。

## Key Takeaways

- MotuBrain模型在物理规律的理解和模拟上做到了全面领先。
- 该模型能在随机环境下保持高分，显示了强大的泛化能力。
- MotuBrain通过统一预测与行动在一个模型中实现了跨任务、跨场景的智能表现。

## Content

Title: 生数科技认领神秘登顶模型：AI视频公司拿出工业级Demo，跨本体跑通复杂长程任务

URL Source: http://www.qbitai.com/2026/04/411336.html

Markdown Content:
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

2026-04-30 08:35:15 来源：[量子位](https://www.qbitai.com/)

做视频，顺便把具身智能的活也干了。

> 田晏林 发自 凹非寺
> 
> 
> 量子位 | 公众号 QbitAI

一家做视频的公司，造了个机器人通用大脑。

这不是段子，是真事。

区别于传统的专用机器人大脑，这个“大脑”既具备世界模型的预测推演能力，又能输出行动指令，真正做到“知行合一”。

大脑模型名叫**MotuBrain**，4月中旬悄悄登顶两个国际benchmark，却无人知晓来历，让具身圈大佬们猜了三周。

刚刚，**生数科技**主动认领了。

没错，是那个做了Vidu、让央视动漫用AI拍西游的公司。

两个国际benchmark，一个测试“能不能看懂物理世界”，一个考验“能不能真的动手干活”。

就像一个人一边参加物理竞赛，一边考叉车实操证，4月中旬，MotuBrain两门都拿了**全场最高分**。

成绩单亮出来，还是实打实的登顶：

*   在WorldArena上，MotuBrain运动质量第一、动作平滑度第一；
*   在RoboTwin2.0上，它也是唯一一个在随机环境下，平均分超过95的模型。

这是什么概念？过去几年，能把其中一个测试做到极致已属不易。

同时登顶？之前还没人做到过。

但现在，生数科技告诉你：一个MotuBrain模型就够了。

![Image 1](https://i.qbitai.com/wp-content/uploads/2026/04/7934d368fdb2d9d871141b2e448bc296.jpeg)

视频公司**跨界**指挥机器人，听起来蛮有趣。

实际内里也是大有乾坤：具身智能的未来需要World Action Model（世界动作模型），而后者必须建立在**视频模型对物理世界的理解**之上。

一段汽车漂移的视频，模型要看懂车为什么拐弯、轮胎为什么冒烟、下一秒会往哪走。

这也不难理解视频公司闯入具身世界背后的逻辑了。

## 双榜吊打，这个机器人大脑有多强？

MotuBrain悄无声息地同时登顶**WorldArena**和**RoboTwin2.0**，不少具身大佬都被这个神秘模型勾起好奇心，疯狂打听到底是谁家做的。

有媒体扒出X平台上倒是有个账号，但刚注册，简介空空。

“子弹”飞了快三周，4月29日，生数科技主动跑出来认领：是我。

回头来看，线索其实早就埋下了。

2025年12月，生数科技正式开源通用基座世界模型**Motus**，这是其在物理世界智能方向的一次试水。

四个月时间不到，生数又进化了。

MotuBrain作为全面升级的**商业模型版本**，继承了Motus完整核心技术架构，并完成关键能力突破。

验证实力的第一站：WorldArena。这是业界公认的**World Model**能力测试场。

它不看你模型生成的视频好不好看，而是看你的模型能不能真正理解物理世界：

一个物体被推一下会朝哪个方向运动？两个物体碰撞后会发生什么？连续动作的轨迹是否平滑、是否符合真实物理规律？

EWM Score是这个榜单的综合评分，Motion Quality、Flow Score、Motion Smoothness这些维度分别考察动作的真实性、连续性和平滑度。

![Image 2](https://i.qbitai.com/wp-content/uploads/2026/04/159db9551303c0e0b5e0e35ea6d5b048.jpeg)

△数据统计截至4月21日

在这三个直接对应“动作质量”的维度上，MotuBrain全部拿下第一。

这意味着它不是靠某个单项指标刷分，而是在物理规律的理解和模拟上做到了全面领先。

RoboTwin2.0则是**Action Model**的硬核考场。

它给模型设置了**50个**不同的任务，覆盖抓取、放置、推、拉、旋转等多种操作类型，还分两种环境进行测试：

一是Clean场景，标准实验室环境，物体位置、光线、背景都是固定的；

二是Randomized场景，会引入随机的扰动，比如物体位置随机偏移，灯光颜色随机变化，甚至桌子角度都可能微调。这考验的是模型**能不能泛化**到没见过的条件。

MotuBrain在两个场景下，分别达到95.8和96.1，均排名第一。

它也是该榜单上唯一一个在**随机环境**下，平均分超过95的模型。

拆开50个具体任务看，MotuBrain九成任务超过90分，一半任务更是拿到了满分100分。这已经不是领先了，这叫断崖式领先。

![Image 3](https://i.qbitai.com/wp-content/uploads/2026/04/bc154196a54c5e900c6583682aa856cb.jpeg)

两个顶级榜单，一个测“理解世界”，一个测“在世界中行动”。

想要同时取得成绩，业内默认这是“统一场”级别的难题。

因为两边的技术栈和评估方式完全不同，能把其中一个做到极致就已经是顶级水平。

但MotuBrain双榜吊打，至少在benchmark层面验证了一件事：

把**预测世界和驱动行动**统一在同一个模型里，这条路是走得通的。

## 真机演示：AI干活开始“带脑子”了

从榜单成绩看，MotuBrain拥有更**接近通用机器人大脑**的能力特征，它不是单项任务的“偶然强”，而是跨任务、跨场景的泛化能力都强。

一段真机演示足以直观印证。

从生数科技发布的Demo看，没有复杂的上层VLM加持，也没有预设动作脚本，却将MotuBrain的**4个核心能力**完整呈现，看完只剩震撼！

这段不足3分钟视频，用**3台**不同型号的仿人形机器人，演示了**5种**任务：插花、整理沙发、服务一场火锅局、调酒、整理洗漱台。

没错，MotuBrain的第一个能力就是**一脑多型**，它不是为某一种机器人量身定制，而是面向多机器人本体设计的统一智能底座。

它在不同形态、不同自由度、不同传感器的机器人上都能跑，而且接入的机器人种类越多，数据和场景越丰富，模型表现越好。

仅从Demo展示的这三台机器人身上，我们也能看到一个模型是怎么**拿捏全场景任务**的。

插花、整理沙发，别看在这几项任务里算“简单”的，恰恰是最**考验长程任务建模能力**的操作。

我们能看到，机器人精准抓取三支花，分别稳稳插入花瓶后，顺势拿起浇水壶，对着花枝均匀喷洒清水，整个过程非常丝滑，没有停顿。

![Image 4](https://i.qbitai.com/wp-content/uploads/2026/04/d64cc899fb974d87adadbe65d26f4856.gif)

也能看到它精准识别出散落的衣物和错位的靠枕，先将衣物逐一拾起、规整放入洗衣篮，再将歪歪扭扭的靠枕摆回原位。

全程动作轻柔且高效，没有出现衣物掉落、靠枕摆放歪斜的情况。

![Image 5](https://i.qbitai.com/wp-content/uploads/2026/04/f871b2c12de1c5a09e9d676ad9b55784.gif)

这就是MotuBrain**一脑贯通**能力的体现。

不同于传统机器人仅能完成2-3个原子动作的Demo展示，MotuBrain的一个World Action Model可完成**10个原子动作级别**的**复杂长程任务**。

无论是插花还是整理沙发，机器人面对的不再是一个个孤立动作，而是一项需要持续推进的完整任务。

如果你以为这就够了，先别急着叫好，大招还在后面。

最让人眼前一亮的，当属服务一场火锅局。机器人被要求从锅中舀取一份丸子放入碗中，同时倒一杯果汁。

这一次，它**左右手同时“开工”，互不干扰、配合默契。**

一个小细节是，起初勺子放在锅里，机器人用左手握住勺柄，没有立刻捞取，而是**先判断了一下漏勺中有没有物体**，然后重新伸向锅中舀取丸子，盛入面前的碗中。

![Image 6](https://i.qbitai.com/wp-content/uploads/2026/04/55946895767ba1349f7c3454f90a7733.gif)

别小瞧这个不起眼的动作，需要机器人**「理解」**勺子是空的，同时能自主**「预测」**并重新执行捞取动作。

多数机器人是“看到什么就做什么”。而在这个取丸子场景里，如果换成传统指令式机器人，它只会按脚本执行“舀→放”的动作。

一旦勺子初始是空的，它要么卡住，要么盲目重复，却不知道“为什么空”。

但MotuBrain能做到：像人一样“察言观色”，握住勺柄的瞬间就通过视觉判断出“勺里没东西”，紧接着自主规划新路径，重新伸回锅中精准舀取丸子。

直到确认勺子里有食材，它再稳稳端起，送入碗中，全程行云流水，**无需人工干预或重新下指令。**

理解世界、预测变化，并据此驱动更合理的行动，这就是MotuBrain的**一脑预见**能力。

不过此时，真机演示还未到高潮。

![Image 7](https://i.qbitai.com/wp-content/uploads/2026/04/075f2e86f401d8659a594b0d41a92555.gif)

**调配饮料**的任务，才是细节拉满。

只见「硅基调酒师」右手拿起饮料，精准倒入盎司杯中定容，放下饮料瓶后，左手迅速拿起牛奶瓶，将牛奶缓缓注入中间的玻璃空杯，动作轻柔且精准，**全程没有一滴洒漏**。

待牛奶倒完，右手再次拿起盎司杯，将里面的饮料缓缓倒入牛奶杯中，最后还不忘**取一片薄荷叶**，轻轻放在饮品表面**做点缀**。

完成造型后，它还俏皮地**捏**了一下身边的塑料小黄鸭，仿佛在向围观者“报喜”：鸡尾酒做好啦！

一系列操作，展现了MotuBrain的**一脑多能**。

这一能力让模型能够在多任务场景中保持稳定表现，不依赖单一任务训练。

相比于传统做法，比如搬箱子用一个模型、开门用一个，叠衣服又一个……任务越多越臃肿。

MotuBrain直接把大量不同类型任务混在一起学，从抓取到多步操作全扔进去。

这样做的好处是，随着**任务数量持续增加**，任务之间的共享世界知识越多，MotuBrain的平均任务**成功率也会同步提升**。

因为它学到的是“操作的本质”，不是肌肉记忆。

![Image 8](https://i.qbitai.com/wp-content/uploads/2026/04/aa473233105b8670976f3088e97144c3.jpeg)

这四个能力叠在一起，MotuBrain就有了**为连续、智能、真实世界的行动而设计**的机器人通用大脑。

## 把推演和行动揉进同一个模型

为什么MotuBrain能让机器人有这样的干活能力？答案藏在底层技术设计里。

过去一年，围绕World Model和Action Model，行业已逐步形成几条有代表性的技术路线：

一是**直接行动派**，也就是训练一个VLA直接进行感知理解和执行。

二是**先看后动派**，先训练一个视频预测模型用来想象未来，再把想象的结果作为决策依据。听起来有点像人类先在大脑里模拟一遍再动手。

![Image 9](https://i.qbitai.com/wp-content/uploads/2026/04/03e95afaf3cccd695eeccbb797ce3faa.jpeg)

MotuBrain走的是第三条路线——**边看边动派**，也就是World Action Model。

它把推演和行动融合在同一个模型里，没有先后顺序，决策的同时就在推演，推演的结果直接影响决策。

这三条路线没有绝对的对错，但World Action Model有两个**关键优势**：

它不需要等待机器人“想象”后再行动，**响应速度**更快；同时因为推演和行动共享同一个表征空间，预测的偏差和执行的**偏差不会相互放大**。

打个通俗的比方。人类司机开车，不是靠肌肉记忆去踩刹车。

你看到前车刹车灯亮起的那一刹那，大脑已经在预测“0.5秒后我离前车还有多远”“现在踩刹车重了会不会追尾”“轻了会不会刹不住”。

这个预测和决策是同时发生的，不是反复琢磨路况，再踩刹车（那就来不及了……）

![Image 10](https://i.qbitai.com/wp-content/uploads/2026/04/d84f82cf7e861ed4371c0f17ddec4826.jpeg)

MotuBrain做的就是这件事。如果只用一个词形容它，那就是：**为行动而生**。

传统AI模型更像是“观看者”或“分析者”，给它一张小猫的图片，它能认出来；给它一段视频，它能描述发生了什么。

但这类模型从不真正“行动”，也不需要对自己的判断负责。

**MotuBrain要解决的**，也不是“机器人会不会做一个动作”，而**是“机器人能不能连续完成一个任务”。**

而想要做到这点，要求机器人必须真正理解真实世界中的运动和物理变化。它的行动必须是**连续**的、能**适应变化**的、可以**跨本体、跨任务**的。

在WorldArena评测中，MotuBrain在三个与“运动”直接相关的维度上全部拿下第一：

*   Motion Quality：动作真实，不是“摆姿势”。
*   Flow Score：连续动作丝滑衔接，理解轨迹变化。
*   Motion Smoothness：符合物理规律，无突兀跳变、急加速或抖动。

从技术层面看，MotuBrain的设计并不复杂，却很有章法。每一步都像在给机器人“换脑子、塑认知”。

其技术根基源自**Motus**在去年12月确立的**World Action Models**。

核心思路很简单：先给机器人的“视觉”（视频）和“动作”（机械运动）做一套“统一翻译系统”，彻底打通多模态信息壁垒。

也就是用UniDiffuser实现Video和Action的统一建模与调度。

**一旦语言统一了，机器人只需训练一次，就能自动学会五种本事：**

举个最直观的例子，让机器人取桌边水杯。

*   VLA模态：视觉识别目标+解析语言指令，完成感知到动作的初始触发；
*   世界模型模态：观测水杯边缘位置与姿态，结合机器人动作输入，预判物体位移、滑落等环境动态演化趋势；
*   视频生成模态：基于手部靠近水杯的前置帧，自主补全整个抓取动作的时序过程；
*   逆动力学模态：由“水杯从桌面转移至手中”的结果，反向推演机械臂最优运动轨迹；
*   视频动作联合预测模态：执行抓取的同时，实时预判水杯下一时刻位置，动态微调手部姿态与发力逻辑。

这五种本事都来自同一套底层逻辑，不用分开训练。

![Image 11](https://i.qbitai.com/wp-content/uploads/2026/04/f4f5d23ef3d29fc396869f863d179e54.jpeg)

而且，相比传统VLA只能吃特定本体上的纯任务数据，Motus**「不忌口」**，能同时消化各种数据（纯视频、无标签数据、机器人运动轨迹）。

它吃的数据越杂越多，机器人对真实世界的理解会越深，行动也就更靠谱。

因为它掌握的是跨任务的通用规律，不是单一动作的“模板”。

在此基础上，MotuBrain做了更实用的升级，解决了机器人落地的核心痛点：

*   不挑相机：不管机器人装了多少个摄像头、角度如何，都能正常识别；
*   听懂人话：把“指令”融入动作生成的核心，不是简单“凑活执行”，而是真的理解指令意图；
*   跨机器人通用：学会的本事能迁移到不同机器人身上，不用换一台机器人就重新训练；
*   能做复杂任务：它搭了一个视频−动作−语言三流MoT架构，不用拆分步骤，让模型可以完成10个以上连贯动作；

![Image 12](https://i.qbitai.com/wp-content/uploads/2026/04/5111ebed94aae1aaaadc1ce971ea8f76.jpeg)

从左图可以看出，随着任务数量增加，Pi-0.5成功率持续下降，而MotuBrain成功率持续上升。

这说明它**学到了跨任务的通用世界知识**，这是VLA不具有的能力。

右图呢？是MotuBrain在数据量上的**Scaling Law**曲线。

相比其他模型更陡峭，说明其数据效率非常高，仅用少量数据就可以取得很好的结果。

此外，任务数量的scaling law曲线比数据量更为陡峭，说明对于MotuBrain这种数据效率极高的模型来说，**相比于增加数据量，增加任务的多样性对成功率的提升效果更为显著。**

真机演示里，我们也能看出来，该模型已在多款仿人形机器人上验证过，**大模型运行不卡顿**，不用额外辅助工具，仅凭自身能力，就能高成功率**完成长程任务**，还能**左右手同时做不同事**。

总结下来，MotuBrain真正厉害之处，不在于多复杂的技术堆砌，而在于用“统一建模”打通了机器人的“感知、理解、行动”，让机器人真正从“机械执行”，走向“智能决策”。

## 左手Vidu，右手MotuBrain

如果只看MotuBrain这一个点，可能会觉得生数科技是突然杀进了具身智能赛道。

但如果把视线拉远，会发现这是一条早有预谋的暗线。

今年4月，阿里领投，生数科技完成了近20亿元人民币的B轮融资。

这不是一笔小钱，投资机构看中的不是“又一家做视频模型的公司”，而是一个更大的叙事：**打通数字世界与物理世界的通用世界模型。**

生数科技的布局是双轨并行。模型的底层是其全球首创的**U-ViT架构**。

这个架构也是该公司整个战略的技术基座，它做的事情很底层，也很关键：**统一处理视觉、听觉、触觉等多模态信息。**

![Image 13](https://i.qbitai.com/wp-content/uploads/2026/04/79925f805efaa1bfa055dea357bd4f95.jpeg)

不同类型的感知数据被塞进同一个模型框架里训练，模型逐渐建立起对世界的统一认知：什么是物体，什么是运动，什么是因果关系。

就像人类婴儿的大脑，不是分别长出一个视觉皮层和一个运动皮层，而是两者协同发育、互相促进。

在这个基座之上，生数科技兵分两路。

一条**通往数字世界**，另一条路**通往物理世界**。

![Image 14](https://i.qbitai.com/wp-content/uploads/2026/04/7fe492ed52d618dfd1df77ac1874c58f.jpeg)

先看第一条路，生数科技走的是**世界生成模型（WGM）**路线，产品就是大家熟悉的**视频大模型Vidu**。

Vidu的能力不只是在给定提示词后生成一段好看的视频。在生成视频的过程中，模型必须学会物理规律：水怎么流、光怎么反射、物体怎么碰撞。

一个生成“水滴落下”视频的模型，如果它连重力加速度都不懂，生成的画面就会很假。

所以，Vidu本质上是一个被训练来“理解并生成物理世界”的模型。

![Image 15](https://i.qbitai.com/wp-content/uploads/2026/04/bc2ae9682af2cbbf6b371f1bda88d698.jpeg)

△Vidu布局

它已经在商业化上证明了这一点：漫威《毒液3》的水墨风格宣传片，完全基于Vidu生成；AI漫剧《明日周一》10人团队45天产出50集，上线5天播放量破500万。

而**通往物理世界**的路，**MotuBrain正在铺**。

Vidu和MotuBrain，一个是数字空间的产出，一个是物理空间的执行，**两套产品，同一条根**。

这套双轨结构有一个天然的护城河：

绝大多数做机器人大脑的公司没有视频大模型的基础，数据来源主要是仿真环境和真实机器人采集的数据，成本高、规模小。

而绝大多数做视频模型的公司没有机器人动作数据的积累，输出可以很美，但无法驱动实体。

生数科技是极少数**同时拥有这两块拼图的玩家**。

![Image 16](https://i.qbitai.com/wp-content/uploads/2026/04/b97efcff0eba7cf84c68a539b0b2b333.jpeg)

也因此，这些技术积累会直接反映在前述MotuBrain的成绩单上。

当然，光有数据还不够，模型层面的突破还需要场景验证。目前，生数科技已经与**无界动力、深朴智能、星尘智能**达成战略合作。

这些合作伙伴有的主攻工业制造与商业服务场景，有些瞄准类家庭商业场景与合作住宿场景。

合作内容不只是“把MotuBrain装上去试试”，而是技术层面的联合优化、数据层面的双向飞轮、应用层面的规模化落地。

除了上述商业伙伴，更多战略合作已在路上。

## One more thing

具身智能行业的共识变了，大家已经不在意谁造出更灵巧的机器人，更关心谁先做出真正通用的机器人大脑。

资本正在密集涌向做“大脑”的公司，这就是最好的说明。

他们争夺的不是一两个爆款应用，而是下一代的操作系统入口，甚至更底层——**通用物理世界**的入口。

这个节骨眼上，刚完成近20亿元B轮融资的生数科技，带着双榜第一的MotuBrain出现了。

当别人还在纠结该走World Model还是VLA时，生数科技用同一个模型同时做到了行业第一。

这至少说明了一件事：**通用物理智能这条路，有人已经开始跑通了**。

如果说视频是理解世界的起点，那么让AI真正走进物理世界才是所有玩家的终点。

Vidu画出了一个虚拟世界，而MotuBrain正在奔向后者。

官网链接：

 https://www.shengshu.com/zh/motubrain

_版权所有，未经授权不得以任何形式转载及使用，违者必究。_