Introducing Gemini Omni

Google DeepMind Blog

Google DeepMind Blog2026年5月17日

Introducing Gemini Omni

8.5内容质量

TL;DR · AI 摘要

Gemini Omni Flash是DeepMind推出的新模型，能够通过多种输入生成高质量视频并支持自然语言编辑，结合物理知识与世界知识实现创意与准确性的平衡。

核心要点

Gemini Omni Flash支持通过文本、图像、视频或音频输入生成视频，并允许通过对话逐步编辑，保持场景连贯性。
模型整合了物理模拟（如流体动力学）和Gemini的知识库，能生成符合现实逻辑的视觉解释，如蛋白质折叠的黏土动画。
初始版本支持视频生成和编辑，未来将扩展到图像和音频输出，目前通过Gemini应用和YouTube Shorts提供。

结构提纲

按章节快速跳转。

§Gemini Omni的背景与核心能力
介绍Gemini Omni作为多模态模型的定位，强调其结合推理与生成能力，支持从任意输入生成视频的核心功能。
·自然语言视频编辑功能
详细说明通过对话逐步编辑视频的机制，包括修改细节、场景重构和多轮编辑的连贯性保持。
·物理与知识驱动的创作
阐述模型如何结合物理规律（如流体动力学）和Gemini的知识库生成真实且有逻辑的视觉内容。
·多模态输入与输出能力
描述支持多种输入类型（文本/图像/视频/音频）综合生成视频，并规划未来扩展其他模态的路线图。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

Gemini Omni
- 视频编辑
  - 自然语言交互
  - 多轮编辑连贯性
- 物理模拟
  - 流体动力学
  - 现实逻辑生成
- 多模态输入
  - 文本/图像/视频/音频
  - 跨模态合成

金句 / Highlights

值得收藏与分享的关键句。

Gemini Omni gives you an easier way to edit video — with natural language. Every instruction builds on the last.
— 第 2 段
⬇︎ 下载 PNG 𝕏 分享到 X
Omni has an improved intuitive understanding of forces like gravity, kinetic energy and fluid dynamics, allowing you to create more realistic scenes.
— 第 5 段
⬇︎ 下载 PNG 𝕏 分享到 X
Omni draws on Gemini's knowledge to connect language, imagery and meaning in ways that go far beyond pattern matching.
— 第 6 段
⬇︎ 下载 PNG 𝕏 分享到 X

#Gemini Omni#DeepMind#多模态模型#视频生成#自然语言编辑

打开原文

16 分钟阅读

Gemini Omni Flash 是一个可以从任意输入开始生成任何内容的模型——从视频开始。

Video 22

Audio 3

收听文章内容本内容由 Google AI 生成。生成式 AI 尚处于实验阶段

[[duration]] 分钟

去年，Nano Banana 将 Gemini 的智能带入了图像生成和编辑领域。自此，它已帮助数百万人修复老照片、从草图设计、以前所未有的方式可视化创意。从最初设计，我们便让 Gemini 原生支持多模态能力，现在我们正迈出下一步。

我们推出 Gemini Omni，将 Gemini 的推理能力与生成能力结合。Omni 是我们的新一代模型，可以从任意输入生成任何内容——从视频开始。通过 Omni，您可以将图像、音频、视频和文本作为输入，生成基于 Gemini 现实世界知识的高质量视频，还可通过对话轻松编辑视频。

今天，我们率先在 Gemini 应用、Google Flow 和 YouTube Shorts 推出 Omni 系列首款模型：Gemini Omni Flash。未来将支持图像和音频等输出模态。以下是 Omni 的独特之处：

通过对话编辑视频

Gemini Omni 提供更简便的视频编辑方式——通过自然语言。每条指令都会延续前一步操作。角色保持一致，物理规则成立，场景会记住之前的内容。

改造周围世界 可修改具体细节，或彻底改变整体。您的视频将成为从未拍摄过的创意起点。

提示词：将雕塑变成泡泡。

重新构思动作 将拍摄的视频上传，只需让 Omni 改变正在发生的事。编辑动作、添加新角色或物体，或把瞬间转化为意想不到的场景。

提示词：当人物触碰镜子时，让镜子像液体般荡漾，人物的手臂变成反光镜面材质。

多轮迭代优化视频 在不丢失原始场景主线的前提下，修改环境、角度、风格或具体细节。通过滚动预览栏查看编辑如何层层叠加。

提示词：一位小提琴手演奏的视频。

依托 Gemini 的世界知识实现创意落地

Gemini Omni 不仅构建视觉真实的场景，还能推理下一步该发生什么。它结合对物理、历史、科学和文化背景的直观理解，弥合照片级真实感与有意义叙事之间的鸿沟。

生成更真实的物理效果 Omni 对重力、动能和流体动力学等物理规律有了更深入的理解，可创建更真实的场景。

提示词：高速滚动的弹珠在连锁反应轨道上移动，连续流畅拍摄。

融合知识与创造力 Omni 基于 Gemini 的知识库，将语言、图像和意义的结合提升到超越模式匹配的层次。

提示词：字母表视频。每个字母对应一个独特物品（如 C 对应水豚、D 对应迪斯科球、L 对应霓虹灯）摆放在桌上，26 个字母需全部展示。每个物品下方左下角显示用黑色记号笔写在纸条上的字母，每帧仅显示一个物品和对应字母标签。所有纸条必须以 24FPS 每 9 帧展示一个物品，最后一帧为"THE END"纸条。全程配以舒缓背景音乐。

复杂概念可视化 通过简短提示即可生成解释性视频，将复杂概念转化为视觉化表达。

提示词：黏土动画演示蛋白质折叠，所有元素由黏土制成，无手部操作，定格动画形式，科学准确。

从任意组合输入生成视频

参考任意内容 Omni 可将图像、文本、视频或音频作为参考，整合为统一输出。初期仅支持语音参考，其他音频输入类型将陆续推出。

提示词：基于 image_0.png 的动态科幻电影风格视频，元素随 video_0.mp4 中的灯光效果同步音频_0.wav 的节拍闪烁。

从已有内容开始创作 通过输入参考（如角色、场景草图），按您的愿景生成内容。

提示词：设想我行走时世界逐渐转变为复古未来主义风格（如 image-1 的颗粒感和阴郁色调）。使用复古未来主义背景音乐，时长 10 秒。

应用风格、运动或特效 通过输入参考或自然语言描述定义视觉语言。Omni 将融合输入生成连贯片段。

提示词：保持原视频不变，为滑板添加动态运动特效

使用自己的数字分身创建视频

我们致力于负责任地开发 AI，并制定了明确政策保护用户免受伤害，规范 AI 工具的使用。目前，您可通过 Avatars 功能用自己的声音生成视频，创建自己的数字分身。除分身功能外，关于通过编辑视频修改音频和语音的功能，我们仍在测试阶段，正深入研究如何负责任地将该能力提供给用户。

所有通过Omni创建的视频均包含我们难以察觉的SynthID数字水印。您可以通过Gemini应用、Chrome中的Gemini插件以及Google搜索轻松验证视频是否由Gemini Omni生成。更多关于我们如何扩展内容透明度和验证工具的信息（帮助您了解网络上各类内容的创作与编辑方式），请参阅我们的博客文章。

立即体验Gemini Omni

今天，我们将推出Omni系列的首款模型——Gemini Omni Flash。该模型将于今日在全球范围内通过Gemini应用和Google Flow，向所有Google AI Plus、Pro和Ultra订阅用户免费开放。本周起，YouTube Shorts和YouTube Create App的用户也可免费使用该功能。

未来几周内，我们还将通过API向开发者和企业客户逐步开放该模型。

[](https://blog.google/innovation-and-ai/technology/developers-tools/google-io-2026-collection/)

订阅Google资讯，获取最新动态

完成。仅一步之遥。

请检查您的邮箱以确认订阅。

您已订阅我们的简讯。

您也可以通过