推出 Gemma 4 12B：面向本机的统一、无编码器多模态模型

The Keyword (blog.google)

The Keyword (blog.google)2026年6月3日

推出 Gemma 4 12B：面向本机的统一、无编码器多模态模型

8.7内容质量

TL;DR · AI 摘要

Gemma 4 12B 是面向本机运行的统一、无编码器多模态模型，将视觉与音频直接接入 LLM，性能接近 26B MoE 但内存仅其一半，可在 16GB VRAM 紧凑设备上运行，支持离线语音处理与低延迟多步推理。

核心要点

Gemma 4 12B 性能接近 26B MoE，内存仅其一半，适合在 16GB VRAM 现代本机运行。
采用统一架构，视觉与音频直接接入 LLM，去除传统编码器以降低延迟与显存占用。
支持离线语音转写、格式化与翻译，提供 Multi-Token Prediction 以降低推理延迟。

结构提纲

按章节快速跳转。

§模型概述
Gemma 4 12B 是面向本机运行的统一、无编码器多模态模型，性能接近 26B MoE 但内存仅其一半。
·统一架构设计
视觉与音频输入直接接入 LLM，去除传统编码器以降低延迟与显存占用。
·本地运行能力
可在 16GB VRAM 或统一内存设备上运行，支持离线语音处理与低延迟推理。
·推理与工具
提供 Multi-Token Prediction 以减少推理延迟，支持多步推理与智能体工作流。
·生态与发布
Apache 2.0 开源，已在 Hugging Face、Kaggle 等平台提供预训练权重与快速入门指南。
·开发者社区
模型累计下载超 1.5 亿次，已用于从可穿戴机械臂到企业级安全应用的广泛实践。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

Gemma 4 12B 核心特性
- 统一架构
  - 视觉与音频直接接入 LLM，去除编码器
- 性能与规模
  - 接近 26B MoE，内存仅其一半
- 本地运行
  - 16GB VRAM 设备可运行
  - 支持离线语音处理
- 推理优化
  - Multi-Token Prediction 降低延迟
- 生态与发布
  - Apache 2.0 开源许可
  - Hugging Face/Kaggle 预训练权重
- 社区应用
  - 1.5 亿次下载
  - 可穿戴机械臂/企业安全应用

金句 / Highlights

值得收藏与分享的关键句。

性能接近 26B MoE，内存仅其一半，可在 16GB VRAM 设备上本地运行
— 正文第二段
⬇︎ 下载 PNG 𝕏 分享到 X
无编码器统一架构：视觉与音频直接接入 LLM，去除编码器以降低延迟与显存
— “Experience a uniquely efficient, unified architecture”
⬇︎ 下载 PNG 𝕏 分享到 X
支持离线语音转写、格式化与翻译，提供 Multi-Token Prediction 以降低推理延迟
— Google AI Edge Eloquent 功能描述
⬇︎ 下载 PNG 𝕏 分享到 X
累计下载超 1.5 亿次，已用于可穿戴机械臂与企业级 AI 安全等应用
— 开发者社区实践总结
⬇︎ 下载 PNG 𝕏 分享到 X
开源许可为 Apache 2.0，支持 Hugging Face、Kaggle 等平台的预训练权重下载
— 发布与生态信息
⬇︎ 下载 PNG 𝕏 分享到 X

#Gemma 4#12B#多模态#统一架构#无编码器

打开原文

2026 年 6 月 3 日

3 分钟阅读

Gemma 4 12B 旨在将高性能多模态智能直接带到你的笔记本电脑，将面向移动的高效性与先进推理能力相结合。

O

Olivier Lacombe

Google DeepMind 产品管理总监

G

Gus Martins

Google DeepMind 产品经理

音频 3

收听文章本内容由 Google AI 生成。生成式 AI 仍处于实验阶段

[[duration]] 分钟

今天，我们推出 Gemma 4 12B，这是我们的最新模型，旨在将具备代理能力的多模态智能直接带到笔记本电脑。它在我们面向边缘的 E4B 与更先进的 26B 混合专家（MoE）之间架起桥梁，将强大能力封装在更小的内存占用中。它也是我们首个原生支持音频输入的中等规模模型。

得益于开发者社区，Gemma 4 模型的下载量已突破 1500 万。你们已经构建了从可穿戴机械臂到企业级 AI 安全的众多应用。我们迫不及待想看到你们用这个最新版本能创造出什么。

以下是 Gemma 4 12B 的独特之处：

创新统一架构： 无需多模态编码器。视觉和音频输入直接流入 LLM 主干。
先进推理： 在标准基准上接近 26B 模型的性能，解锁强大的多步推理与代理工作流。
笔记本电脑友好： 体积小巧，仅需 16GB 显存或统一内存即可本地运行。
开放且易用： 采用 Apache 2.0 许可发布，并获得开发者生态的广泛支持。
具备 Drafters： 配备多令牌预测（MTP）Drafters，显著降低延迟。

这些特性共同将先进的多模态能力带入日常硬件，同时不牺牲速度与推理能力。接下来，让我们深入了解 Gemma 4 12B 是如何实现这一点的。

在本地运行前沿代理

Gemma 4 12B 在标准基准上的性能接近更大的 26B MoE 模型，但总体内存占用不到一半。体积足够小，可在配备 16GB 内存的消费级笔记本上本地运行，让你的设备即可获得强大的多模态与代理体验。

体验高效统一架构

Gemma 4 12B 的与众不同之处在于其处理视觉与音频输入的精简方式。传统多模态模型通常依赖独立编码器，先将图像与音频转换为表示，再传递给语言模型。由于这些分离的编码器会增加延迟并占用更多内存，我们为 Gemma 4 12B 采用无编码器架构，直接将音频与视觉输入整合到模型中。

以下是 Gemma 4 12B 如何原生处理多模态输入：

视觉： 用轻量级嵌入模块替代视觉编码器，仅包含一次矩阵乘法、位置嵌入与归一化，使 LLM 主干接管视觉处理。
音频： 进一步简化音频处理。完全移除音频编码器，将原始音频信号投影到与文本 token 相同的维度空间。

想要深入了解的开发者，请参阅配套的 Gemma 4 12B 开发者指南。

观看原生音频处理的实际效果：使用 Google AI Edge Eloquent 应用，Gemma 4 12B 可完全离线地转录、格式化并翻译语音输入。

立即开始

亲自动手试一试：在 LM Studio、Ollama、Google AI Edge Gallery App、Google AI Edge Eloquent 应用和 LiteRT-LM CLI 中，只需几次点击即可体验
下载模型权重：直接从 Hugging Face 和 Kaggle 下载预训练和指令微调的检查点
集成与学习：查阅开发者文档和快速入门 Notebook
使用您喜爱的开发工具：使用 Hugging Face Transformers、llama.cpp、MLX、SGLang 和 vLLM 构建本地推理流水线，或使用 Unsloth 高效微调
借助 Gemma Skills 解锁智能体开发：为支持智能体利用最新的 Gemma 技术，我们发布了官方 Skills Repository。这是一个专为 Gemma 模型设计的技能库，帮助智能体快速构建
按您所需部署：使用 Google Cloud 启动生产端点。通过 Gemini Enterprise Agent Platform Model Garden、Cloud Run 和 GKE 按您的方式部署

推出 Gemma 4 12B：面向本机的统一、无编码器多模态模型

TL;DR · AI 摘要

核心要点

结构提纲

思维导图

金句 / Highlights

在本地运行前沿代理

体验高效统一架构

立即开始

相关故事