Jina AI 发布 v5-omni 模型

Jina AI(@JinaAI_)

Jina AI(@JinaAI_)2026年5月12日

Jina AI 发布 v5-omni 模型

8.5内容质量

TL;DR · AI 摘要

Jina AI 发布 v5-omni 模型，保留 v5-text 主干并添加预训练的视觉和音频编码器，通过小型可训练投影器连接。

核心要点

v5-omni 保留 v5-text 主干，完全冻结其参数。
新增 Qwen3.5 视觉编码器，仅最终投影层（fc_vision_2）可训练。
新增 Qwen2.5-Omni 音频编码器，通过单个随机初始化的 fc_audio 层将输出映射到文本主干。

结构提纲

按章节快速跳转。

§引言
Jina AI 发布 v5-omni 模型，介绍其主要特点。
·视觉编码器
Qwen3.5 视觉编码器使用 2x2 空间合并，仅最终投影层可训练。
·音频编码器
Qwen2.5-Omni 音频编码器通过单个随机初始化的 fc_audio 层将输出映射到文本主干。
·视频处理
视频作为视觉帧序列处理，可选地由提取的音频片段前缀。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

v5-omni 模型
- 视觉编码器
  - Qwen3.5 编码器
  - 2x2 空间合并
  - fc_vision_2 投影层
- 音频编码器
  - Qwen2.5-Omni 编码器
  - fc_audio 投影层
- 视频处理
  - 视觉帧序列
  - 可选音频片段

金句 / Highlights

值得收藏与分享的关键句。

v5-omni 保留 v5-text 主干，完全冻结其参数，并添加预训练的视觉和音频编码器，通过小型可训练投影器连接。
— 第 2 段
⬇︎ 下载 PNG 𝕏 分享到 X
视觉：Qwen3.5 视觉编码器使用 2x2 空间合并。我们冻结所有层，除了最终投影层（fc_vision_2）。
— 第 2 段
⬇︎ 下载 PNG 𝕏 分享到 X
音频：Qwen2.5-Omni 编码器。单个随机初始化的 fc_audio 层将 1280 维输出映射到文本主干。
— 第 2 段
⬇︎ 下载 PNG 𝕏 分享到 X

#Jina AI#多模态模型#视觉编码器#音频编码器

打开原文

Vision: Qwen3.5 vision encoders with 2x2 spatial merge. We freeze everything except the final projection layer (fc_vision_2), which https://t.co/XqSnSAH5TG" / X

Jina AI on X: "v5-omni keeps the v5-text backbone completely frozen and adds pretrained vision and audio encoders connected through small trainable projectors: - Vision: Qwen3.5 vision encoders with 2x2 spatial merge. We freeze everything except the final projection layer (fc_vision_2), which https://t.co/XqSnSAH5TG" / X

Don’t miss what’s happening

Jina AI

@JinaAI_

v5-omni keeps the v5-text backbone completely frozen and adds pretrained vision and audio encoders connected through small trainable projectors: - Vision: Qwen3.5 vision encoders with 2x2 spatial merge. We freeze everything except the final projection layer (fc_vision_2), which we replace with a randomly initialized layer mapping into the text backbone's hidden dimension. - Audio: Qwen2.5-Omni encoder. A single randomly initialized fc_audio layer projects the 1280-dimensional output into the text backbone. - Video: Handled as a sequence of visual frames, optionally preceded by an extracted audio segment.

3:44 PM · May 12, 2026

·

639 Views

1

3

1