Introducing Gemini Omni
TL;DR · AI 摘要
Gemini Omni Flash是DeepMind推出的新模型,能够通过多种输入生成高质量视频并支持自然语言编辑,结合物理知识与世界知识实现创意与准确性的平衡。
核心要点
- Gemini Omni Flash支持通过文本、图像、视频或音频输入生成视频,并允许通过对话逐步编辑,保持场景连贯性。
- 模型整合了物理模拟(如流体动力学)和Gemini的知识库,能生成符合现实逻辑的视觉解释,如蛋白质折叠的黏土动画。
- 初始版本支持视频生成和编辑,未来将扩展到图像和音频输出,目前通过Gemini应用和YouTube Shorts提供。
结构提纲
按章节快速跳转。
介绍Gemini Omni作为多模态模型的定位,强调其结合推理与生成能力,支持从任意输入生成视频的核心功能。
详细说明通过对话逐步编辑视频的机制,包括修改细节、场景重构和多轮编辑的连贯性保持。
阐述模型如何结合物理规律(如流体动力学)和Gemini的知识库生成真实且有逻辑的视觉内容。
描述支持多种输入类型(文本/图像/视频/音频)综合生成视频,并规划未来扩展其他模态的路线图。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- Gemini Omni
- 视频编辑
- 自然语言交互
- 多轮编辑连贯性
- 物理模拟
- 流体动力学
- 现实逻辑生成
- 多模态输入
- 文本/图像/视频/音频
- 跨模态合成
金句 / Highlights
值得收藏与分享的关键句。
Gemini Omni gives you an easier way to edit video — with natural language. Every instruction builds on the last.
Omni has an improved intuitive understanding of forces like gravity, kinetic energy and fluid dynamics, allowing you to create more realistic scenes.
Omni draws on Gemini's knowledge to connect language, imagery and meaning in ways that go far beyond pattern matching.
16 分钟阅读
Gemini Omni Flash 是一个可以从任意输入开始生成任何内容的模型——从视频开始。
收听文章内容 本内容由 Google AI 生成。生成式 AI 尚处于实验阶段
[[duration]] 分钟
去年,Nano Banana 将 Gemini 的智能带入了图像生成和编辑领域。自此,它已帮助数百万人修复老照片、从草图设计、以前所未有的方式可视化创意。从最初设计,我们便让 Gemini 原生支持多模态能力,现在我们正迈出下一步。
我们推出 Gemini Omni,将 Gemini 的推理能力与生成能力结合。Omni 是我们的新一代模型,可以从任意输入生成任何内容——从视频开始。通过 Omni,您可以将图像、音频、视频和文本作为输入,生成基于 Gemini 现实世界知识的高质量视频,还可通过对话轻松编辑视频。
今天,我们率先在 Gemini 应用、Google Flow 和 YouTube Shorts 推出 Omni 系列首款模型:Gemini Omni Flash。未来将支持图像和音频等输出模态。以下是 Omni 的独特之处:
通过对话编辑视频
Gemini Omni 提供更简便的视频编辑方式——通过自然语言。每条指令都会延续前一步操作。角色保持一致,物理规则成立,场景会记住之前的内容。
改造周围世界 可修改具体细节,或彻底改变整体。您的视频将成为从未拍摄过的创意起点。
提示词:将雕塑变成泡泡。
重新构思动作 将拍摄的视频上传,只需让 Omni 改变正在发生的事。编辑动作、添加新角色或物体,或把瞬间转化为意想不到的场景。
提示词:当人物触碰镜子时,让镜子像液体般荡漾,人物的手臂变成反光镜面材质。
多轮迭代优化视频 在不丢失原始场景主线的前提下,修改环境、角度、风格或具体细节。通过滚动预览栏查看编辑如何层层叠加。
提示词:一位小提琴手演奏的视频。
依托 Gemini 的世界知识实现创意落地
Gemini Omni 不仅构建视觉真实的场景,还能推理下一步该发生什么。它结合对物理、历史、科学和文化背景的直观理解,弥合照片级真实感与有意义叙事之间的鸿沟。
生成更真实的物理效果 Omni 对重力、动能和流体动力学等物理规律有了更深入的理解,可创建更真实的场景。
提示词:高速滚动的弹珠在连锁反应轨道上移动,连续流畅拍摄。
融合知识与创造力 Omni 基于 Gemini 的知识库,将语言、图像和意义的结合提升到超越模式匹配的层次。
提示词:字母表视频。每个字母对应一个独特物品(如 C 对应水豚、D 对应迪斯科球、L 对应霓虹灯)摆放在桌上,26 个字母需全部展示。每个物品下方左下角显示用黑色记号笔写在纸条上的字母,每帧仅显示一个物品和对应字母标签。所有纸条必须以 24FPS 每 9 帧展示一个物品,最后一帧为"THE END"纸条。全程配以舒缓背景音乐。
复杂概念可视化 通过简短提示即可生成解释性视频,将复杂概念转化为视觉化表达。
提示词:黏土动画演示蛋白质折叠,所有元素由黏土制成,无手部操作,定格动画形式,科学准确。
从任意组合输入生成视频
参考任意内容 Omni 可将图像、文本、视频或音频作为参考,整合为统一输出。初期仅支持语音参考,其他音频输入类型将陆续推出。
提示词:基于 image_0.png 的动态科幻电影风格视频,元素随 video_0.mp4 中的灯光效果同步音频_0.wav 的节拍闪烁。
从已有内容开始创作 通过输入参考(如角色、场景草图),按您的愿景生成内容。
提示词:设想我行走时世界逐渐转变为复古未来主义风格(如 image-1 的颗粒感和阴郁色调)。使用复古未来主义背景音乐,时长 10 秒。
应用风格、运动或特效 通过输入参考或自然语言描述定义视觉语言。Omni 将融合输入生成连贯片段。
提示词:保持原视频不变,为滑板添加动态运动特效
使用自己的数字分身创建视频
我们致力于负责任地开发 AI,并制定了明确政策保护用户免受伤害,规范 AI 工具的使用。目前,您可通过 Avatars 功能用自己的声音生成视频,创建自己的数字分身。除分身功能外,关于通过编辑视频修改音频和语音的功能,我们仍在测试阶段,正深入研究如何负责任地将该能力提供给用户。
所有通过Omni创建的视频均包含我们难以察觉的SynthID数字水印。您可以通过Gemini应用、Chrome中的Gemini插件以及Google搜索轻松验证视频是否由Gemini Omni生成。更多关于我们如何扩展内容透明度和验证工具的信息(帮助您了解网络上各类内容的创作与编辑方式),请参阅我们的博客文章。
立即体验Gemini Omni
今天,我们将推出Omni系列的首款模型——Gemini Omni Flash。该模型将于今日在全球范围内通过Gemini应用和Google Flow,向所有Google AI Plus、Pro和Ultra订阅用户免费开放。本周起,YouTube Shorts和YouTube Create App的用户也可免费使用该功能。
未来几周内,我们还将通过API向开发者和企业客户逐步开放该模型。
[](https://blog.google/innovation-and-ai/technology/developers-tools/google-io-2026-collection/)
订阅Google资讯,获取最新动态
完成。仅一步之遥。
请检查您的邮箱以确认订阅。
您已订阅我们的简讯。
您也可以通过