英伟达清华团队提出Gamma-World：世界模型从「一个人玩」到「多人共处」

量子位

量子位2026年5月30日

英伟达清华团队提出Gamma-World：世界模型从「一个人玩」到「多人共处」

9.2内容质量

TL;DR · AI 摘要

Gamma-World通过正单纯形编码与稀疏枢纽注意力，系统性解决多智能体世界建模难题，实现2人训练→4人零样本泛化与24 FPS实时推演，FVD平均下降超40%。

核心要点

正单纯形编码实现玩家身份等距、无参、可扩展，支持2人训练→4人零样本泛化
Sparse Hub Attention将通信复杂度从O(N²)降至O(N)，8人FLOPs降8倍，支撑24 FPS推演
三阶段蒸馏压缩至4步采样，保持动作可控性，FVD平均降幅>40%

结构提纲

按章节快速跳转。

§多智能体世界建模的核心挑战
现有单智能体世界模型无法保证跨视角一致性与交互一致性，其架构缺失导致无法通过数据或规模弥补。
·核心设计一：正单纯形智能体编码
将玩家置于正单纯形顶点实现身份等距表示，无需可学习参数，支持任意数量玩家零样本泛化。
·核心设计二：稀疏枢纽注意力机制
引入hub token构建轮辐式拓扑，使跨智能体通信复杂度从平方级降至线性级，显著提升可扩展性。
·核心设计三：三阶段蒸馏加速推理
通过双向教师→因果学生→Self-Forcing蒸馏三阶段训练，将扩散步数压缩至4步并维持24 FPS实时推演能力。
§实验验证与效果
在Minecraft五类任务中全面超越Solaris，FVD平均下降超40%，消融实验证明单纯形编码带来最大单步增益。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

Gamma-World：多智能体世界模型新架构
- 问题根源
  - 单智能体假设缺失跨视角一致性
  - 身份编码破坏置换对称性
  - 全连接注意力O(N²)不可扩展
- 三大创新设计
  - Simplex Rotary Agent Encoding
    - 正单纯形顶点等距表示
    - 零参数、可扩展、零样本泛化
  - Sparse Hub Attention
    - 轮辐式拓扑（智能体→hub→智能体）
    - 计算复杂度O(N)，8人FLOPs降8倍
  - 三阶段蒸馏
    - 双向教师 → 因果学生 → Self-Forcing
    - 4步采样 + 24 FPS实时推演
- 实验效果
  - FVD平均下降>40%
  - 五类任务全面超越Solaris
  - 双人训练→四人零样本成功运行

金句 / Highlights

值得收藏与分享的关键句。

从2人扩展到8人，全连接注意力FLOPs从477.8G增至7.6T（增长约16倍），而Sparse Hub Attention仅增长约2倍，差距接近8倍。
— 核心设计二
⬇︎ 下载 PNG 𝕏 分享到 X
仅用双人数据训练，Gamma-World在四人场景实现零样本泛化——这是首个无需重训即可扩展玩家数的世界模型架构。
— 核心设计一
⬇︎ 下载 PNG 𝕏 分享到 X
消融实验显示：将身份编码从可学习槽位改为正单纯形后，FVD从256.3降至228.5，未增加任何参数即获得最大单步性能提升。
— 实验结果
⬇︎ 下载 PNG 𝕏 分享到 X

#世界模型#多智能体#Transformer#NVIDIA#清华

打开原文

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

2026-05-30 11:17:17 来源：量子位

让世界模型迈向多智能体交互仿真

允中发自凹非寺
量子位 | 公众号 QbitAI

当前视频世界模型在单智能体设定下已经走得相对成熟。

但多智能体场景——多个玩家共享同一个演化世界，在架构层面一直缺乏系统性的解决方案。

问题不在于算力不够，而在于现有的位置编码和注意力机制，从设计上就没有为多个主体预留接口。

近日，NVIDIA联合清华大学、多伦多大学和Vector Institute发布Gamma-World（γ-World），从RoPE扩展和注意力拓扑两个底层组件入手，给出了一套系统性的答案。

论文标题：Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players

为什么多智能体世界建模是一个困难问题

现有视频世界模型几乎都建立在单智能体假设之上：

给定一个玩家的动作序列，预测该视角下的未来观测。

多智能体设定从根本上改变了这个问题的性质——模型不再只需预测「这个智能体接下来看到什么」，而是需要同时回答：

玩家A的移动应当在玩家B的视野中如何呈现？两名玩家同时操作同一个物体，状态应当如何演化？

这不是「生成N段独立视频」的问题，而是「生成N个耦合视角对同一个演化世界的不同投影」。

在技术层面，这意味着模型必须同时维护三重一致性：

时间一致性：画面在时序上连贯；
跨视角一致性：A在B视野中的呈现与A自身轨迹吻合；
交互一致性：多个智能体对共享环境的操作在所有视角中产生一致的状态变化。

单智能体框架在设计上只保证了时间一致性，后两者从未被纳入考量——

这是架构层面的结构性缺失，无法通过增加数据量或模型规模来弥补。

在Gamma-World之前，这个方向并非没有人尝试。

Solaris已经在双人Minecraft上取得了不错的结果，但它暴露出的两个结构性问题，恰恰说明了为什么将单智能体框架直接「扩展」到多智能体，是一条走不通的路。

其一，身份编码破坏了对称性。

Solaris为每个玩家分配固定的可学习槽位身份向量，实质上将「1号槽」和「2号槽」学成了两种不同的角色类型。

在真实的多智能体世界中，能力相同的玩家本质上可互换，这种对称性的缺失使模型学到的是「特定角色的交互模式」，而非「多个平等主体共享世界的规律」，泛化性从根本上受限，且一旦需要支持新的玩家数就必须重新训练。

其二，全连接注意力存在扩展性天花板。

让所有玩家的token两两直接交互，计算成本随玩家数量平方增长——

从2人扩展到8人，计算量从477.8G增至7.6T，增长约16倍。

这是算法复杂度决定的天花板，无法通过工程优化解决。

两个问题指向同一个结论：多智能体世界模型需要的不是修补，而是对两个核心组件的重新设计。

有关如何表示智能体身份，以及如何设计跨智能体通信。

核心设计一：Simplex Rotary Agent Encoding，让玩家「身份等距、地位平等」

这个设计要解决的核心矛盾是：

如何让模型既能区分不同的玩家，又不让任何玩家在表示上比其他玩家「更特殊」。

视频Transformer用RoPE（旋转位置编码）来表达位置关系——给每个信息片段分配一个旋转角度，两个片段之间的位置差异通过旋转角度的差来表达。

标准视频RoPE编码三个轴：时间、高度、宽度。

Gamma-World加了第四个轴——玩家轴，在不改变原有时空编码的前提下，为智能体身份单独留出一个维度。

轴加起来容易，难的是这个玩家轴上的编码怎么设计。

直接编号行不通。

给玩家按序号分配角度，会导致不同玩家对之间的旋转距离不等：1号和2号差1，1号和3号差2。

「1号与2号的关系」和「1号与3号的关系」在表示空间中并不等距，尽管物理上完全等价。置换对称性被编码方式本身直接破坏。

可学习的槽位嵌入也不行。

每个座位绑定一个固定的可训练向量，模型被锁死在训练时的玩家数量上，无法扩展，这正是Solaris的核心局限。

正单纯形：所有玩家天然等距

Gamma-World的解法很优雅：把所有玩家放在一个正单纯形（regular simplex）的顶点上。

什么意思？

想象一个正三角形，所有顶点之间的距离完全相等，没有哪个顶点更特殊。

2个玩家 → 线段的两端
3个玩家 → 等边三角形的三个顶点
4个玩家 → 正四面体的四个顶点

无论哪两个玩家，他们在旋转角空间里的距离完全一样。模型看到任意两个玩家，他们之间的几何关系是对称的，谁也不比谁特殊。

这个编码不需要任何可学习的参数。

训练时，活跃玩家被随机分配到顶点池里的不同位置，模型只能靠几何坐标来认人。

推理时想支持更多玩家，从同一个顶点池里多取几个顶点就行，架构不用改，也不用重新训练。

这也是Gamma-World能做到「双人数据训练、四人场景直接跑通」的根本原因。

核心设计二：Sparse Hub Attention，从「全连接」到「枢纽广播」

跨智能体通信是多智能体世界模型绕不过去的需求，但以往方案的做法代价过高——

让所有玩家的所有token两两直接交互，计算成本随玩家数量平方增长：从2人扩展到8人，计算量从477.8G涨至7.6T，增长约16倍。

这是算法复杂度决定的天花板，无法通过工程优化解决。

问题的根源在于一个错误的假设：每个token级别的细节都需要在所有玩家之间直接传递。

事实上，玩家A放下方块，玩家B需要感知的只是「世界里出现了一个方块」——这是一个紧凑的世界状态变化，而非A的全部视觉细节。

但玩家之间真的需要「直接说话」吗？

全连接注意力隐含了一个假设：每个token级别的细节都需要在所有玩家之间直接传递。而这个假设在绝大多数场景下是错误的。

Gamma-World引入一组可学习的hub token（枢纽token），构成轮辐式拓扑：

每个智能体只与自身历史及hub token交互；
hub token汇聚所有智能体的信息压缩为共享状态摘要，再广播回各智能体流；
不同智能体之间的直接注意力被完全屏蔽，信息经由两跳传递：智能体→hub→智能体。

这一结构将计算成本从平方复杂度压至线性复杂度。

△Sparse Hub Attention（蓝线）vs Dense Attention（红线），随玩家数量增加FLOPs差距接近8倍

值得强调的是，稀疏枢纽注意力不只是节省了算力，它本身也是一个更合理的归纳偏置——在架构层面显式编码了「跨智能体信息应经过共享世界状态瓶颈」这一先验，而非期待模型从数据中隐式学习。

推理时通过独立的KV cache保留稀疏通信拓扑，最终实现24 FPS实时动作响应推演。

方法总览

（注：方法总览，左侧为同步多智能体输入，中间为Tokenization，右侧为Causal Multi-Agent DiT，下方分别展示Simplex Rotary Agent Encoding和Sparse Hub Attention的示意图）

整体架构输入同步的多智能体观测和动作序列，用共享的视觉编码器和动作编码器对每个玩家流分别tokenize，再通过带稀疏枢纽注意力的因果多智能体DiT生成未来多路rollout。

推理时使用KV cache实现流式生成，每个玩家流和枢纽各维护独立缓存。

核心设计三：三阶段蒸馏，从「看得全」到「跑得快」

生成质量和推理实时性在扩散模型里天然是一对矛盾：双向模型质量最高但无法流式推理，因果模型支持实时生成但质量下降。

Gamma-World用三阶段训练在两者之间架桥。

第一阶段：训练双向教师。

教师模型可访问完整序列（包括未来帧），提供最高质量的生成分布，仅用于训练阶段，不参与推理。

第二阶段：训练因果学生。

学生模型只能看到当前及过去的帧，结合稀疏枢纽注意力适配流式推理。

关键在于将学生完整训练为多步扩散模型，而非仅作为蒸馏热身——蒸馏之前学生已能产生合理的推演结果，为下一阶段提供稳定起点。

第三阶段：条件Self-Forcing蒸馏。

以因果学生为起点、双向教师为目标，通过分布匹配蒸馏（DMD）将多步采样压缩为4步采样。

蒸馏在自回归self-rollout下进行，训练分布与推理分布对齐，有效缓解误差累积。

全程保留初始帧与逐智能体动作序列作为条件信号，确保压缩后的模型动作可控性不退化，最终实现24 FPS流式推演。

实验结果

1、全面超越现有最强

在多人Minecraft环境的五类场景中，对比帧拼接方案和目前最强的多智能体世界模型Solaris，Gamma-World在记忆、空间定位、移动、建造、跨视角一致性五个场景全面领先，关键指标FVD（视频生成质量的评估指标）平均降幅超过40%。

2、消融：每一步设计都有实际效果

消融结果说明从「学习槽位身份」换成「单纯形编码」，FVD从256.3降至228.5，没有增加任何参数，仅通过改变编码方式就带来了整个消融中最大的单步增益。

这个结果的意义不只是「单纯形编码更好」，而是证明了一件更根本的事：

在架构中显式编码置换对称性约束，比让模型从数据中隐式学习这种结构，在样本效率和最终性能上都有显著优势。

对称性是一个先验知识，把先验知识编进架构比让模型自己去发现，本来就更有效率——消融实验用数字验证了这一点。

3、双人训练，四人直接跑通

△零样本四人泛化，模型仅用双人数据训练，推理时直接生成四路同步视角

模型仅在双人数据上训练，推理时从顶点池中启用两个新顶点，直接生成四路同步视角，无需修改任何架构参数，四路画面维持共享世界状态的一致性。

这个结果直接验证了单纯形编码的核心设计目标：泛化到任意玩家数，不需要见过那个玩家数的训练数据。

无论是Solaris、Enigma Labs的Multiverse还是Odyssey的Agora-1，这些工作都证明了多智能体世界模型可以做，但同时都缺乏这样的拓展泛化能力。

4、两种典型任务的定性展示

△两智能体交互示例——两路视角保持同步，Agent 1的行为在Agent 2的视角中被正确反映

在「放置与挖掘」任务中，两路视角实时同步，一方的操作在另一方画面中得到正确反映。

在「建造塔楼」任务中，双方协同搭建的方块在各自视角里位置一致，共享世界状态完整维护。

当玩家暂时移出对方视野时，模型仍能维持正确的空间定位——这说明模型追踪的是共享的潜在世界状态，而非独立生成各路视频后拼在一起。

5、从游戏到真实机器人

△从游戏agent到真实双臂机器人协同，模型生成保持协同运动的未来帧

研究团队将Gamma-World应用于RealOmin-Open数据集的真实双臂机器人协同任务，以左右两条机械臂分别作为独立智能体。

生成的未来帧保持了双臂的协同运动与空间布局，同一套框架从Minecraft多人场景直接迁移至真实物理操作，无需额外适配。

这一结果验证了多智能体世界模型框架本身的通用性，而非针对特定场景的专项方案。

这也让人忍不住往更远处想：现实世界中几乎所有有价值的场景，本质上都是多个主体在共享环境中协作或博弈——手术室里的多臂协同、工厂产线上的多机器人调度、自动驾驶中的多车交互。

如果一套统一的多智能体世界模型框架能够覆盖这些场景，它所代表的就不只是仿真能力的提升，而是为整个Physical AI领域提供了一个全新的数据生产和策略训练基础设施。

小结

Gamma-World的三项核心设计，单纯形旋转智能体编码、稀疏枢纽注意力、条件师生蒸馏，分别对应多智能体世界建模中三个长期悬而未决的问题：

身份的对称表示、交互的高效建模、质量与实时性的同时兼顾。

每一项都不是修补，而是在确认原有路径走不通之后，从更底层的建模原则重新给出的答案。

三项设计背后有一个共同的方法论：将对问题结构的理解直接编码进架构，而非期待模型从数据中自行发现。

一个真正理解多智能体世界的模型，应当在结构上就是对称的，而不是见过足够多的数据之后，碰巧学出了近似对称的行为。

前者是理解，后者只是拟合。

Gamma-World零样本泛化到四人场景的结果，正是对这一判断最直接的实验验证。

这一方法论也指向一个更大的可能性：当多智能体世界模型的生成质量足以忠实还原真实物理规律，训练数据的采集方式本身就会发生根本性转变——

从依赖真实场景的物理采集，转向由神经网络驱动的大规模模拟生成。

受限于人力、空间和时间的数据瓶颈，将有可能被无限可扩展的神经仿真所替代。

从方块世界到机械臂，Gamma-World迈出的是验证性的第一步。

真正的世界模型，学会的不该只是「画面」，而是「规则」。

论文：Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players

机构：NVIDIA/清华大学/多伦多大学/Vector Institute

项目主页：https://research.nvidia.com/labs/sil/projects/gamma-world/

GitHub：https://github.com/nv-tlabs/Gamma-World

Huggingface: https://huggingface.co/papers/2605.28816