推出 Gemma 4 12B:面向本机的统一、无编码器多模态模型

TL;DR · AI 摘要
Gemma 4 12B 是面向本机运行的统一、无编码器多模态模型,将视觉与音频直接接入 LLM,性能接近 26B MoE 但内存仅其一半,可在 16GB VRAM 紧凑设备上运行,支持离线语音处理与低延迟多步推理。
核心要点
- Gemma 4 12B 性能接近 26B MoE,内存仅其一半,适合在 16GB VRAM 现代本机运行。
- 采用统一架构,视觉与音频直接接入 LLM,去除传统编码器以降低延迟与显存占用。
- 支持离线语音转写、格式化与翻译,提供 Multi-Token Prediction 以降低推理延迟。
结构提纲
按章节快速跳转。
- §模型概述
Gemma 4 12B 是面向本机运行的统一、无编码器多模态模型,性能接近 26B MoE 但内存仅其一半。
视觉与音频输入直接接入 LLM,去除传统编码器以降低延迟与显存占用。
可在 16GB VRAM 或统一内存设备上运行,支持离线语音处理与低延迟推理。
提供 Multi-Token Prediction 以减少推理延迟,支持多步推理与智能体工作流。
Apache 2.0 开源,已在 Hugging Face、Kaggle 等平台提供预训练权重与快速入门指南。
模型累计下载超 1.5 亿次,已用于从可穿戴机械臂到企业级安全应用的广泛实践。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- Gemma 4 12B 核心特性
- 统一架构
- 视觉与音频直接接入 LLM,去除编码器
- 性能与规模
- 接近 26B MoE,内存仅其一半
- 本地运行
- 16GB VRAM 设备可运行
- 支持离线语音处理
- 推理优化
- Multi-Token Prediction 降低延迟
- 生态与发布
- Apache 2.0 开源许可
- Hugging Face/Kaggle 预训练权重
- 社区应用
- 1.5 亿次下载
- 可穿戴机械臂/企业安全应用
金句 / Highlights
值得收藏与分享的关键句。
性能接近 26B MoE,内存仅其一半,可在 16GB VRAM 设备上本地运行
无编码器统一架构:视觉与音频直接接入 LLM,去除编码器以降低延迟与显存
支持离线语音转写、格式化与翻译,提供 Multi-Token Prediction 以降低推理延迟
累计下载超 1.5 亿次,已用于可穿戴机械臂与企业级 AI 安全等应用
开源许可为 Apache 2.0,支持 Hugging Face、Kaggle 等平台的预训练权重下载
2026 年 6 月 3 日
3 分钟阅读
Gemma 4 12B 旨在将高性能多模态智能直接带到你的笔记本电脑,将面向移动的高效性与先进推理能力相结合。
O
Olivier Lacombe
Google DeepMind 产品管理总监
G
Gus Martins
Google DeepMind 产品经理

收听文章 本内容由 Google AI 生成。生成式 AI 仍处于实验阶段
[[duration]] 分钟
今天,我们推出 Gemma 4 12B,这是我们的最新模型,旨在将具备代理能力的多模态智能直接带到笔记本电脑。它在我们面向边缘的 E4B 与更先进的 26B 混合专家(MoE)之间架起桥梁,将强大能力封装在更小的内存占用中。它也是我们首个原生支持音频输入的中等规模模型。
得益于开发者社区,Gemma 4 模型的下载量已突破 1500 万。你们已经构建了从可穿戴机械臂到企业级 AI 安全的众多应用。我们迫不及待想看到你们用这个最新版本能创造出什么。
以下是 Gemma 4 12B 的独特之处:
- 创新统一架构: 无需多模态编码器。视觉和音频输入直接流入 LLM 主干。
- 先进推理: 在标准基准上接近 26B 模型的性能,解锁强大的多步推理与代理工作流。
- 笔记本电脑友好: 体积小巧,仅需 16GB 显存或统一内存即可本地运行。
- 开放且易用: 采用 Apache 2.0 许可发布,并获得开发者生态的广泛支持。
- 具备 Drafters: 配备多令牌预测(MTP)Drafters,显著降低延迟。
这些特性共同将先进的多模态能力带入日常硬件,同时不牺牲速度与推理能力。接下来,让我们深入了解 Gemma 4 12B 是如何实现这一点的。
在本地运行前沿代理
Gemma 4 12B 在标准基准上的性能接近更大的 26B MoE 模型,但总体内存占用不到一半。体积足够小,可在配备 16GB 内存的消费级笔记本上本地运行,让你的设备即可获得强大的多模态与代理体验。
体验高效统一架构
Gemma 4 12B 的与众不同之处在于其处理视觉与音频输入的精简方式。传统多模态模型通常依赖独立编码器,先将图像与音频转换为表示,再传递给语言模型。由于这些分离的编码器会增加延迟并占用更多内存,我们为 Gemma 4 12B 采用无编码器架构,直接将音频与视觉输入整合到模型中。
以下是 Gemma 4 12B 如何原生处理多模态输入:
- 视觉: 用轻量级嵌入模块替代视觉编码器,仅包含一次矩阵乘法、位置嵌入与归一化,使 LLM 主干接管视觉处理。
- 音频: 进一步简化音频处理。完全移除音频编码器,将原始音频信号投影到与文本 token 相同的维度空间。
想要深入了解的开发者,请参阅配套的 Gemma 4 12B 开发者指南。
观看原生音频处理的实际效果:使用 Google AI Edge Eloquent 应用,Gemma 4 12B 可完全离线地转录、格式化并翻译语音输入。
立即开始
- 亲自动手试一试:在 LM Studio、Ollama、Google AI Edge Gallery App、Google AI Edge Eloquent 应用和 LiteRT-LM CLI 中,只需几次点击即可体验
- 下载模型权重:直接从 Hugging Face 和 Kaggle 下载预训练和指令微调的检查点
- 集成与学习:查阅 开发者文档 和 快速入门 Notebook
- 使用您喜爱的开发工具:使用 Hugging Face Transformers、llama.cpp、MLX、SGLang 和 vLLM 构建本地推理流水线,或使用 Unsloth 高效微调
- 借助 Gemma Skills 解锁智能体开发:为支持智能体利用最新的 Gemma 技术,我们发布了官方 Skills Repository。这是一个专为 Gemma 模型设计的技能库,帮助智能体快速构建
- 按您所需部署:使用 Google Cloud 启动生产端点。通过 Gemini Enterprise Agent Platform Model Garden、Cloud Run 和 GKE 按您的方式部署