Gemini Omni 来了！Google 的优势，果然还是在多模态模型吧？！

meng shao(@shao__meng)

meng shao(@shao__meng)2026年5月20日

Gemini Omni 来了！Google 的优势，果然还是在多模态模型吧？！

7.8内容质量

TL;DR · AI 摘要

Google Gemini Omni 是首个原生多模态理解与生成模型，支持图文音视频任意组合输入，实现对话式视频编辑与物理世界知识推理，显著超越Veo等前代模型。

核心要点

Gemini Omni 支持图、文、视频、音频任意组合输入，实现多轮对话式视频编辑，无需重述完整提示词。
相比Veo，Gemini Omni 具备物理直觉（重力、动能）和世界知识（历史、科学），生成内容更符合真实世界逻辑。
Gemini Omni 可基于参考图迁移动作与口型，或用草图引导实拍视频生成，编辑精度达帧级一致性。

结构提纲

按章节快速跳转。

§Gemini Omni 的核心定位
Gemini Omni 是 Google 推出的首个原生多模态理解与生成模型，专攻视频创作与编辑。
§与 Veo模型的关键对比
Gemini Omni 在底层架构、提示词交互、编辑方式和知识融合上全面超越Veo等前代模型。
·三大核心能力：对话式编辑
支持多轮自然语言指令逐层修改视频，保持角色、物理和场景的一致性。
·三大核心能力：世界知识与物理直觉
模型内置重力、动能、流体等物理规则，以及历史与科学知识，提升生成可信度。
·三大核心能力：任意参考物组合
支持图文音视频混合作为输入参考，实现动作迁移、角色替换与分镜生成。
§行业影响与技术意义
Gemini Omni 标志着AI视频生成从单次生成向交互式、知识驱动型创作的范式跃迁。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

Gemini Omni：原生多模态视频生成模型
- 核心架构
  - 原生多模态设计（非压成文本）
  - 集成Gemini世界知识引擎
- 关键能力
  - 对话式视频编辑（多轮迭代）
  - 任意参考物组合（图/文/视频/音频）
  - 物理直觉（重力/动能/流体）
- 对比优势
  - 超越Veo/Sora的提示词灵活性
  - 优于Sora的编辑连续性

金句 / Highlights

值得收藏与分享的关键句。

Gemini Omni 可用自然语言逐轮编辑视频，每步指令基于上一轮结果，无需重述完整提示词，显著提升编辑效率。
— 正文
⬇︎ 下载 PNG 𝕏 分享到 X
相比Veo的视觉模式匹配，Gemini Omni 结合世界知识与物理直觉，能生成符合重力、动能规律的弹珠连锁轨道等复杂运动。
— 正文
⬇︎ 下载 PNG 𝕏 分享到 X
Gemini Omni 支持用草图仅引导运动轨迹，自动生成实拍风格视频，或基于参考图替换角色但保留口型与动作。
— 正文
⬇︎ 下载 PNG 𝕏 分享到 X
音频输入首发支持人声参考，未来将开放其他音频类型，实现音画同步的叙事生成。
— 正文
⬇︎ 下载 PNG 𝕏 分享到 X

#Gemini Omni#多模态模型#视频生成#Google DeepMind#AI编辑

打开原文

Gemini 3.0 发布时，最惊艳的就是之前 Claude 和 GPT 都没有的多模态理解能力；Nano Banana 和 Veo 在多模态生成方面也是断档的强（发布时，后来被超越了）

现在 Google I/O 发布的 Gemini Omni，又是一个原生多模态的「理解 + https://t.co/i3ilN8XlWX" / X

Gemini Omni 来了！Google 的优势，果然还是在多模态模型吧？！ Gemini 3.0 发布时，最惊艳的就是之前 Claude 和 GPT 都没有的多模态理解能力；Nano Banana 和 Veo 在多模态生成方面也是断档的强（发布时，后来被超越了）现在 Google I/O 发布的 Gemini Omni，又是一个原生多模态的「理解 + 生成」模型，当前主攻视频，可用任意组合输入（图、文、视频、音频）产出或编辑视频。来看看官方对 Omni 和 Veo 的对比： 1. 工作方式 Veo：多模态常被压成文本再生成 Omni：从底层原生多模态设计 2. 提示词 Veo：需非常具体、逐帧描述 Omni：可只给意图，由推理补细节 3. 编辑 Veo：多为单次生成 Omni：多轮对话式编辑，每步叠加上一步 4. 知识 Veo：偏视觉模式匹配 Omni：结合 Gemini 的世界知识、物理直觉注意：这里的 Veo 代表了 Veo、Sora、Seedance 等几乎全部之前的视频生成模型，这个对比感觉几乎是吊打了。 Omni 三大能力 1. 对话式视频编辑（核心差异化） · 用自然语言改已有视频，每轮指令建立在上一轮结果上。 · 强调一致性：角色、物理、场景记忆在多轮修改后仍连贯。 · 典型操作：换背景、改机位、换物体/角色、改动作、加特效，无需每次重述整段 prompt。 2. 世界知识 + 物理直觉 · 物理：重力、动能、流体等，用于更可信的运动（如弹珠连锁轨道）。 · 知识：历史、科学、文化语境，用于科普/叙事类内容（如粘土定格「蛋白质折叠」）。 · 文字：不只「能写字」，而是文字与画面动作、节奏同步（如字母表 26 项 + 对应 lower third）。 3. 任意参考物组合（Reference anything） · 图、文、视频、音频可混用为「配料」，合成一条叙事。 · 能力包括：动作/风格迁移、参考图换角色（保留动作与口型）、草图仅作运动引导转实拍、分镜图按节拍生成等。 · 音频：首发主要支持人声参考；其他音频输入类型将陆续开放。

Quote

Image 2: Square profile picture

Google DeepMind

@GoogleDeepMind

15h

We’re dropping Gemini Omni: our first step towards a model that can create anything from anything - starting with video. It combines Gemini’s intelligence with our generative media systems - representing a leap forward in world understanding, multimodality, and editing Image 3: 🧵