NVIDIA Developer视频2026年6月1日

NVIDIA 推出 Cosmos 3：统一物理AI多模态模型

9.2内容质量

可直接观看的视频资源打开原视频

TL;DR · AI 摘要

NVIDIA 推出 Cosmos 3，首个融合语言、视频、声音与动作的多模态统一模型，采用 Mixture of Transformer 架构，支持开源定制与边缘部署，已在多项物理AI基准测试中登顶。

核心要点

Cosmos 3 是首个整合语言/视频/声音/动作输入输出的 omni 模型，基于 Mixture of Transformer 架构。
Super 版本在物理 AI 任务中表现卓越，Nano 版适合边缘设备部署，模型权重已开放于 Hugging Face。
Cosmos 3 在 Vintage、TA、PiBench、Robo Lab 等多个物理 AI 基准中排名第一，支持开发者自定义训练与推理。

结构提纲

按章节快速跳转。

§发布背景与目标
NVIDIA 发布 Cosmos 3，旨在加速物理 AI 革命，提供统一多模态基础模型供开发者定制与部署。
·架构创新
采用 Mixture of Transformer 架构，包含自回归左塔与扩散右塔，兼容视觉-语言、动作等子模型。
·版本与部署
提供 Super（高精度）与 Nano（轻量边缘）两个版本，模型权重开放下载，支持 GitHub 示例代码。
·性能与基准
在物理 AI 多项基准如 Vintage、TA、PiBench、Robo Lab 中夺冠，图像到视频生成为开源模型第一。
·开源生态支持
提供训练脚本与数据集，鼓励开发者基于开放模型构建下游应用，推动物理 AI 生态发展。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

NVIDIA Cosmos 3：统一物理AI多模态模型
- 核心架构
  - Mixture of Transformer
  - 双塔设计：自回归 + 扩散
- 版本策略
  - Super 模型：高精度物理AI任务
  - Nano 模型：边缘设备部署
- 性能表现
  - Robo Lab 政策评估第一
  - PiBench / Vintage / TA 基准榜首
  - 开源图像到视频生成第一
- 开源生态
  - Hugging Face 开源权重
  - GitHub 示例代码与训练脚本

金句 / Highlights

值得收藏与分享的关键句。

Cosmos 3 是首个融合语言、视频、声音和动作的 omni 模型，支持双向输入输出，架构上结合自回归与扩散机制。
— 第 0:27-0:46
⬇︎ 下载 PNG 𝕏 分享到 X
模型在 Robo Lab 政策评估中排名第一，在 PiBench 和 Vintage 基准测试中均获最高分，证明其物理理解能力领先。
— 第 1:58-2:05
⬇︎ 下载 PNG 𝕏 分享到 X
NVIDIA 提供 Super 与 Nano 两种版本，前者用于高性能物理 AI 任务，后者适配边缘设备，降低部署门槛。
— 第 1:28-1:38
⬇︎ 下载 PNG 𝕏 分享到 X

#NVIDIA#物理AI#多模态模型#Mixture of Transformer#开源模型