Gemini Omni 来了!Google 的优势,果然还是在多模态模型吧?!

TL;DR · AI 摘要
Google Gemini Omni 是首个原生多模态理解与生成模型,支持图文音视频任意组合输入,实现对话式视频编辑与物理世界知识推理,显著超越Veo等前代模型。
核心要点
- Gemini Omni 支持图、文、视频、音频任意组合输入,实现多轮对话式视频编辑,无需重述完整提示词。
- 相比Veo,Gemini Omni 具备物理直觉(重力、动能)和世界知识(历史、科学),生成内容更符合真实世界逻辑。
- Gemini Omni 可基于参考图迁移动作与口型,或用草图引导实拍视频生成,编辑精度达帧级一致性。
结构提纲
按章节快速跳转。
Gemini Omni 是 Google 推出的首个原生多模态理解与生成模型,专攻视频创作与编辑。
Gemini Omni 在底层架构、提示词交互、编辑方式和知识融合上全面超越Veo等前代模型。
支持多轮自然语言指令逐层修改视频,保持角色、物理和场景的一致性。
模型内置重力、动能、流体等物理规则,以及历史与科学知识,提升生成可信度。
支持图文音视频混合作为输入参考,实现动作迁移、角色替换与分镜生成。
Gemini Omni 标志着AI视频生成从单次生成向交互式、知识驱动型创作的范式跃迁。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- Gemini Omni:原生多模态视频生成模型
- 核心架构
- 原生多模态设计(非压成文本)
- 集成Gemini世界知识引擎
- 关键能力
- 对话式视频编辑(多轮迭代)
- 任意参考物组合(图/文/视频/音频)
- 物理直觉(重力/动能/流体)
- 对比优势
- 超越Veo/Sora的提示词灵活性
- 优于Sora的编辑连续性
金句 / Highlights
值得收藏与分享的关键句。
Gemini Omni 可用自然语言逐轮编辑视频,每步指令基于上一轮结果,无需重述完整提示词,显著提升编辑效率。
相比Veo的视觉模式匹配,Gemini Omni 结合世界知识与物理直觉,能生成符合重力、动能规律的弹珠连锁轨道等复杂运动。
Gemini Omni 支持用草图仅引导运动轨迹,自动生成实拍风格视频,或基于参考图替换角色但保留口型与动作。
音频输入首发支持人声参考,未来将开放其他音频类型,实现音画同步的叙事生成。
Gemini 3.0 发布时,最惊艳的就是之前 Claude 和 GPT 都没有的多模态理解能力;Nano Banana 和 Veo 在多模态生成方面也是断档的强(发布时,后来被超越了)
现在 Google I/O 发布的 Gemini Omni,又是一个原生多模态的「理解 + https://t.co/i3ilN8XlWX" / X
Gemini Omni 来了!Google 的优势,果然还是在多模态模型吧?! Gemini 3.0 发布时,最惊艳的就是之前 Claude 和 GPT 都没有的多模态理解能力;Nano Banana 和 Veo 在多模态生成方面也是断档的强(发布时,后来被超越了) 现在 Google I/O 发布的 Gemini Omni,又是一个原生 多模态 的「理解 + 生成」模型,当前主攻视频,可用任意组合输入(图、文、视频、音频)产出或编辑视频。 来看看官方对 Omni 和 Veo 的对比: 1. 工作方式 Veo:多模态常被压成文本再生成 Omni:从底层原生多模态设计 2. 提示词 Veo:需非常具体、逐帧描述 Omni:可只给意图,由推理补细节 3. 编辑 Veo:多为单次生成 Omni:多轮对话式编辑,每步叠加上一步 4. 知识 Veo:偏视觉模式匹配 Omni:结合 Gemini 的世界知识、物理直觉 注意:这里的 Veo 代表了 Veo、Sora、Seedance 等几乎全部之前的视频生成模型,这个对比感觉几乎是吊打了。 Omni 三大能力 1. 对话式视频编辑(核心差异化) · 用自然语言改已有视频,每轮指令建立在上一轮结果上。 · 强调 一致性:角色、物理、场景记忆在多轮修改后仍连贯。 · 典型操作:换背景、改机位、换物体/角色、改动作、加特效,无需每次重述整段 prompt。 2. 世界知识 + 物理直觉 · 物理: 重力、动能、流体等,用于更可信的运动(如弹珠连锁轨道)。 · 知识: 历史、科学、文化语境,用于科普/叙事类内容(如粘土定格「蛋白质折叠」)。 · 文字: 不只「能写字」,而是文字与画面动作、节奏同步(如字母表 26 项 + 对应 lower third)。 3. 任意参考物组合(Reference anything) · 图、文、视频、音频可混用为「配料」,合成一条叙事。 · 能力包括:动作/风格迁移、参考图换角色(保留动作与口型)、草图仅作运动引导转实拍、分镜图按节拍生成等。 · 音频: 首发主要支持 人声参考;其他音频输入类型将陆续开放。

Quote

@GoogleDeepMind
15h
We’re dropping Gemini Omni: our first step towards a model that can create anything from anything - starting with video. It combines Gemini’s intelligence with our generative media systems - representing a leap forward in world understanding, multimodality, and editing
