Philipp Schmid(@_philschmid)
Gemini API 的文件搜索工具现已支持多模态检索
7.8Score

TL;DR · AI 摘要
Gemini API 的文件搜索工具现已支持多模态检索,使用 `gemini-embedding-2` 模型可构建统一处理 PDF 和图像的 RAG 系统,索引与查询分离计费,存储和查询嵌入免费。
核心要点
- Gemini 新增多模态文件检索能力,支持 PDF 与图像混合检索。
- 使用 `gemini-embedding-2` 可单次调用实现文档分块、嵌入与索引。
- 系统自动返回带页码和图像引用的溯源元数据,提升结果可信度。
结构提纲
按章节快速跳转。
Gemini API 文件搜索支持多模态检索。
通过 `gemini-embedding-2` 实现统一嵌入模型处理。
创建存储、上传文件、调用搜索、获取溯源。
存储与查询嵌入免费,仅对索引和推理计费。
适用于构建多模态 RAG 应用。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- Gemini 多模态文件搜索
- 核心功能
- 多模态检索
- PDF 与图像支持
- 技术实现
- gemini-embedding-2
- 自动分块与索引
- 应用优势
- 单次调用构建 RAG
- 响应含溯源元数据
金句 / Highlights
值得收藏与分享的关键句。
Use `gemini-embedding-2` as the embedding model to build a true multimodal RAG system for PDFs and images with a single call.
Upload documents and images, the API handles chunking, embedding, and indexing.
Every response includes grounding metadata with page numbers and downloadable image references.
Storage: Free. Query-time embeddings: Free. You pay for: Indexing embeddings + standard Gemini input/output tokens.
#Gemini#RAG#多模态检索#Google DeepMind
打开原文Philipp Schmid 在 X 上:“Gemini API 的文件搜索工具现在支持多模态检索。使用 `gemini-embedding-2` 作为嵌入模型,只需一次调用即可为 PDF 和图像构建真正的多模态 RAG 系统。工作原理:1. 使用 `gemini-embedding-2` 作为嵌入模型创建存储库 2. https://t.co/z23vTi3GlA” / X
不要错过正在发生的事
X 上的人总是第一时间知道。
帖子
查看最新帖子
对话

Philipp Schmid 
Gemini API 的文件搜索工具现在支持多模态检索。使用 gemini-embedding-2 作为嵌入模型,只需一次调用即可为 PDF 和图像构建真正的多模态 RAG 系统。工作原理如下:
- 使用
gemini-embedding-2作为嵌入模型创建存储库 - 上传文档和图像,API 会自动处理分块、嵌入和索引
- 使用 Gemini API 的
file_search工具,API 会处理嵌入、检索并生成有依据的回复 - 检查引用信息,每个回复都包含带有页码和可下载图像链接的依据元数据
定价说明:
- 存储:免费
- 查询时的嵌入:免费
- 需付费部分:索引时的嵌入 + 推理时的标准 Gemini 输入/输出 token
完整示例代码!图片 5:👇
·
1
10
42
27
刚来到 X?
立即注册,获得属于你的个性化时间线!
使用 Apple 注册
相关人物
-  Philipp Schmid  @_philschmid 关注 点击关注 _philschmid AI 开发体验 @GoogleDeepMind | 此前:@huggingface 技术负责人,AWS ML Hero
分享个人观点与 AI 新闻
https://philschmid.de
当前趋势
|
|
|
|
|
更多
© 2026 X 公司