Hugging Face Blog2026年4月9日

Multimodal Embedding & Reranker Models with Sentence Transformers

8.5Score

用这条生成生成视频方案 Markdown AI 摘要

AI 深度提炼

sentence-transformers v5.4 新增多模态支持，可将文本、图像、音频和视频映射至统一向量空间，实现跨模态相似度计算。
多模态 Reranker 模型支持对混合模态文档对进行相关性打分，可直接用于构建跨模态检索与多模态 RAG 流水线。
使用多模态功能需按需安装依赖，且 VLM 类模型对 GPU 显存有明确要求（2B 约 8GB，8B 约 20GB），CPU 推理极慢。

#Sentence Transformers#多模态检索#向量嵌入#RAG#Hugging Face

这篇文章暂时没有正文缓存。

你可以先打开原文阅读，新的抓取任务会为后续文章保存完整正文。

Multimodal Embedding & Reranker Models with Sentence Transformers | Hugging Face Blog | traeai