T
traeai
登录
返回首页
Google DeepMind Blog

Introducing Gemini Omni

8.5Score

TL;DR · AI 摘要

Gemini Omni Flash是DeepMind推出的新模型,能够通过多种输入生成高质量视频并支持自然语言编辑,结合物理知识与世界知识实现创意与准确性的平衡。

核心要点

  • Gemini Omni Flash支持通过文本、图像、视频或音频输入生成视频,并允许通过对话逐步编辑,保持场景连贯性。
  • 模型整合了物理模拟(如流体动力学)和Gemini的知识库,能生成符合现实逻辑的视觉解释,如蛋白质折叠的黏土动画。
  • 初始版本支持视频生成和编辑,未来将扩展到图像和音频输出,目前通过Gemini应用和YouTube Shorts提供。

结构提纲

按章节快速跳转。

  1. §Gemini Omni的背景与核心能力

    介绍Gemini Omni作为多模态模型的定位,强调其结合推理与生成能力,支持从任意输入生成视频的核心功能。

  2. 详细说明通过对话逐步编辑视频的机制,包括修改细节、场景重构和多轮编辑的连贯性保持。

  3. 阐述模型如何结合物理规律(如流体动力学)和Gemini的知识库生成真实且有逻辑的视觉内容。

  4. 描述支持多种输入类型(文本/图像/视频/音频)综合生成视频,并规划未来扩展其他模态的路线图。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • Gemini Omni
    • 视频编辑
      • 自然语言交互
      • 多轮编辑连贯性
    • 物理模拟
      • 流体动力学
      • 现实逻辑生成
    • 多模态输入
      • 文本/图像/视频/音频
      • 跨模态合成

金句 / Highlights

值得收藏与分享的关键句。

  • Gemini Omni gives you an easier way to edit video — with natural language. Every instruction builds on the last.

    第 2 段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • Omni has an improved intuitive understanding of forces like gravity, kinetic energy and fluid dynamics, allowing you to create more realistic scenes.

    第 5 段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • Omni draws on Gemini's knowledge to connect language, imagery and meaning in ways that go far beyond pattern matching.

    第 6 段

    ⬇︎ 下载 PNG𝕏 分享到 X
#Gemini Omni#DeepMind#多模态模型#视频生成#自然语言编辑
打开原文

16 分钟阅读

Gemini Omni Flash 是一个可以从任意输入开始生成任何内容的模型——从视频开始。

Video 22

Audio 3

收听文章内容 本内容由 Google AI 生成。生成式 AI 尚处于实验阶段

[[duration]] 分钟

去年,Nano Banana 将 Gemini 的智能带入了图像生成和编辑领域。自此,它已帮助数百万人修复老照片、从草图设计、以前所未有的方式可视化创意。从最初设计,我们便让 Gemini 原生支持多模态能力,现在我们正迈出下一步。

我们推出 Gemini Omni,将 Gemini 的推理能力与生成能力结合。Omni 是我们的新一代模型,可以从任意输入生成任何内容——从视频开始。通过 Omni,您可以将图像、音频、视频和文本作为输入,生成基于 Gemini 现实世界知识的高质量视频,还可通过对话轻松编辑视频。

今天,我们率先在 Gemini 应用、Google Flow 和 YouTube Shorts 推出 Omni 系列首款模型:Gemini Omni Flash。未来将支持图像和音频等输出模态。以下是 Omni 的独特之处:

通过对话编辑视频

Gemini Omni 提供更简便的视频编辑方式——通过自然语言。每条指令都会延续前一步操作。角色保持一致,物理规则成立,场景会记住之前的内容。

改造周围世界 可修改具体细节,或彻底改变整体。您的视频将成为从未拍摄过的创意起点。

提示词:将雕塑变成泡泡。

重新构思动作 将拍摄的视频上传,只需让 Omni 改变正在发生的事。编辑动作、添加新角色或物体,或把瞬间转化为意想不到的场景。

提示词:当人物触碰镜子时,让镜子像液体般荡漾,人物的手臂变成反光镜面材质。

多轮迭代优化视频 在不丢失原始场景主线的前提下,修改环境、角度、风格或具体细节。通过滚动预览栏查看编辑如何层层叠加。

提示词:一位小提琴手演奏的视频。

依托 Gemini 的世界知识实现创意落地

Gemini Omni 不仅构建视觉真实的场景,还能推理下一步该发生什么。它结合对物理、历史、科学和文化背景的直观理解,弥合照片级真实感与有意义叙事之间的鸿沟。

生成更真实的物理效果 Omni 对重力、动能和流体动力学等物理规律有了更深入的理解,可创建更真实的场景。

提示词:高速滚动的弹珠在连锁反应轨道上移动,连续流畅拍摄。

融合知识与创造力 Omni 基于 Gemini 的知识库,将语言、图像和意义的结合提升到超越模式匹配的层次。

提示词:字母表视频。每个字母对应一个独特物品(如 C 对应水豚、D 对应迪斯科球、L 对应霓虹灯)摆放在桌上,26 个字母需全部展示。每个物品下方左下角显示用黑色记号笔写在纸条上的字母,每帧仅显示一个物品和对应字母标签。所有纸条必须以 24FPS 每 9 帧展示一个物品,最后一帧为"THE END"纸条。全程配以舒缓背景音乐。

复杂概念可视化 通过简短提示即可生成解释性视频,将复杂概念转化为视觉化表达。

提示词:黏土动画演示蛋白质折叠,所有元素由黏土制成,无手部操作,定格动画形式,科学准确。

从任意组合输入生成视频

参考任意内容 Omni 可将图像、文本、视频或音频作为参考,整合为统一输出。初期仅支持语音参考,其他音频输入类型将陆续推出。

提示词:基于 image_0.png 的动态科幻电影风格视频,元素随 video_0.mp4 中的灯光效果同步音频_0.wav 的节拍闪烁。

从已有内容开始创作 通过输入参考(如角色、场景草图),按您的愿景生成内容。

提示词:设想我行走时世界逐渐转变为复古未来主义风格(如 image-1 的颗粒感和阴郁色调)。使用复古未来主义背景音乐,时长 10 秒。

应用风格、运动或特效 通过输入参考或自然语言描述定义视觉语言。Omni 将融合输入生成连贯片段。

提示词:保持原视频不变,为滑板添加动态运动特效

使用自己的数字分身创建视频

我们致力于负责任地开发 AI,并制定了明确政策保护用户免受伤害,规范 AI 工具的使用。目前,您可通过 Avatars 功能用自己的声音生成视频,创建自己的数字分身。除分身功能外,关于通过编辑视频修改音频和语音的功能,我们仍在测试阶段,正深入研究如何负责任地将该能力提供给用户。

所有通过Omni创建的视频均包含我们难以察觉的SynthID数字水印。您可以通过Gemini应用、Chrome中的Gemini插件以及Google搜索轻松验证视频是否由Gemini Omni生成。更多关于我们如何扩展内容透明度和验证工具的信息(帮助您了解网络上各类内容的创作与编辑方式),请参阅我们的博客文章

立即体验Gemini Omni

今天,我们将推出Omni系列的首款模型——Gemini Omni Flash。该模型将于今日在全球范围内通过Gemini应用Google Flow,向所有Google AI Plus、Pro和Ultra订阅用户免费开放。本周起,YouTube Shorts和YouTube Create App的用户也可免费使用该功能。

未来几周内,我们还将通过API向开发者和企业客户逐步开放该模型。

[](https://blog.google/innovation-and-ai/technology/developers-tools/google-io-2026-collection/)

订阅Google资讯,获取最新动态

完成。仅一步之遥。

请检查您的邮箱以确认订阅。

您已订阅我们的简讯。

您也可以通过

AI 可能会生成不准确的信息,请核实重要内容

Introducing Gemini Omni | Google DeepMind Blog | traeai