Jina AI(@JinaAI_)
Jina AI 发布 v5-omni 模型
8.5Score

TL;DR · AI 摘要
Jina AI 发布 v5-omni 模型,保留 v5-text 主干并添加预训练的视觉和音频编码器,通过小型可训练投影器连接。
核心要点
- v5-omni 保留 v5-text 主干,完全冻结其参数。
- 新增 Qwen3.5 视觉编码器,仅最终投影层(fc_vision_2)可训练。
- 新增 Qwen2.5-Omni 音频编码器,通过单个随机初始化的 fc_audio 层将输出映射到文本主干。
结构提纲
按章节快速跳转。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- v5-omni 模型
- 视觉编码器
- Qwen3.5 编码器
- 2x2 空间合并
- fc_vision_2 投影层
- 音频编码器
- Qwen2.5-Omni 编码器
- fc_audio 投影层
- 视频处理
- 视觉帧序列
- 可选音频片段
金句 / Highlights
值得收藏与分享的关键句。
v5-omni 保留 v5-text 主干,完全冻结其参数,并添加预训练的视觉和音频编码器,通过小型可训练投影器连接。
视觉:Qwen3.5 视觉编码器使用 2x2 空间合并。我们冻结所有层,除了最终投影层(fc_vision_2)。
音频:Qwen2.5-Omni 编码器。单个随机初始化的 fc_audio 层将 1280 维输出映射到文本主干。
#Jina AI#多模态模型#视觉编码器#音频编码器
打开原文- Vision: Qwen3.5 vision encoders with 2x2 spatial merge. We freeze everything except the final projection layer (fc_vision_2), which https://t.co/XqSnSAH5TG" / X
Jina AI on X: "v5-omni keeps the v5-text backbone completely frozen and adds pretrained vision and audio encoders connected through small trainable projectors: - Vision: Qwen3.5 vision encoders with 2x2 spatial merge. We freeze everything except the final projection layer (fc_vision_2), which https://t.co/XqSnSAH5TG" / X
Don’t miss what’s happening

v5-omni keeps the v5-text backbone completely frozen and adds pretrained vision and audio encoders connected through small trainable projectors: - Vision: Qwen3.5 vision encoders with 2x2 spatial merge. We freeze everything except the final projection layer (fc_vision_2), which we replace with a randomly initialized layer mapping into the text backbone's hidden dimension. - Audio: Qwen2.5-Omni encoder. A single randomly initialized fc_audio layer projects the 1280-dimensional output into the text backbone. - Video: Handled as a sequence of visual frames, optionally preceded by an extracted audio segment.
·
1
3
1