Google 推出 Gemini Embedding 2：首个原生多模态嵌入模型

Google AI(@GoogleAI)2026年4月30日

7.8内容质量

TL;DR · AI 摘要

Google 推出首个原生多模态嵌入模型，可将文本、图像、视频、音频统一映射为语义向量，支持跨模态语义搜索，已开放公测并用于视频分析、视觉购物等场景。

按章节快速跳转。

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

值得收藏与分享的关键句。

#Gemini Embedding 2#多模态嵌入#语义搜索#AI模型#Google

Image 1: Square profile picture

上周，我们向公众开放了 Gemini Embedding 2——我们的首个原生多模态嵌入模型。自发布以来，开发者已用它构建了视频分析工具、视觉购物助手等应用。但你可能在想……什么是嵌入模型？ Image 2: 🤔 让我们来分解一下！

它是什么？可以把嵌入模型想象成一个“通用翻译器”。它能将文本、图像、视频和音频数据转换为一长串数字，就像独一无二的数字指纹。
它如何工作？过去，搜索仅限于文本。而现在，Gemini Embedding 2 能够基于语义，将多种模态映射到同一空间中，而不再仅靠关键词匹配。它能“感知”一段足球进球视频与“制胜一击”这些文字之间的关联，无需依赖标签。例如，“海洋”和“波浪”在向量空间中彼此接近，而“海洋”和“烤面包机”则相距甚远。
如何使用它？开发者已将其用于为其应用引入更智能的搜索功能。这意味着你可以拍摄一张产品照片，输入“找黄色的这款”，或通过描述场景内容，在数千小时的视频中进行检索。
想亲自试试吗？今天就可以通过 Gemini API 或 Gemini 企业代理平台开始使用。