T
traeai
登录
返回首页
The Keyword (blog.google)

推出 Gemma 4 12B:面向本机的统一、无编码器多模态模型

8.7Score
推出 Gemma 4 12B:面向本机的统一、无编码器多模态模型

TL;DR · AI 摘要

Gemma 4 12B 是面向本机运行的统一、无编码器多模态模型,将视觉与音频直接接入 LLM,性能接近 26B MoE 但内存仅其一半,可在 16GB VRAM 紧凑设备上运行,支持离线语音处理与低延迟多步推理。

核心要点

  • Gemma 4 12B 性能接近 26B MoE,内存仅其一半,适合在 16GB VRAM 现代本机运行。
  • 采用统一架构,视觉与音频直接接入 LLM,去除传统编码器以降低延迟与显存占用。
  • 支持离线语音转写、格式化与翻译,提供 Multi-Token Prediction 以降低推理延迟。

结构提纲

按章节快速跳转。

  1. Gemma 4 12B 是面向本机运行的统一、无编码器多模态模型,性能接近 26B MoE 但内存仅其一半。

  2. 视觉与音频输入直接接入 LLM,去除传统编码器以降低延迟与显存占用。

  3. 可在 16GB VRAM 或统一内存设备上运行,支持离线语音处理与低延迟推理。

  4. 提供 Multi-Token Prediction 以减少推理延迟,支持多步推理与智能体工作流。

  5. Apache 2.0 开源,已在 Hugging Face、Kaggle 等平台提供预训练权重与快速入门指南。

  6. 模型累计下载超 1.5 亿次,已用于从可穿戴机械臂到企业级安全应用的广泛实践。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • Gemma 4 12B 核心特性
    • 统一架构
      • 视觉与音频直接接入 LLM,去除编码器
    • 性能与规模
      • 接近 26B MoE,内存仅其一半
    • 本地运行
      • 16GB VRAM 设备可运行
      • 支持离线语音处理
    • 推理优化
      • Multi-Token Prediction 降低延迟
    • 生态与发布
      • Apache 2.0 开源许可
      • Hugging Face/Kaggle 预训练权重
    • 社区应用
      • 1.5 亿次下载
      • 可穿戴机械臂/企业安全应用

金句 / Highlights

值得收藏与分享的关键句。

  • 性能接近 26B MoE,内存仅其一半,可在 16GB VRAM 设备上本地运行

    正文第二段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 无编码器统一架构:视觉与音频直接接入 LLM,去除编码器以降低延迟与显存

    “Experience a uniquely efficient, unified architecture”

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 支持离线语音转写、格式化与翻译,提供 Multi-Token Prediction 以降低推理延迟

    Google AI Edge Eloquent 功能描述

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 累计下载超 1.5 亿次,已用于可穿戴机械臂与企业级 AI 安全等应用

    开发者社区实践总结

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 开源许可为 Apache 2.0,支持 Hugging Face、Kaggle 等平台的预训练权重下载

    发布与生态信息

    ⬇︎ 下载 PNG𝕏 分享到 X
#Gemma 4#12B#多模态#统一架构#无编码器
打开原文

2026 年 6 月 3 日

3 分钟阅读

Gemma 4 12B 旨在将高性能多模态智能直接带到你的笔记本电脑,将面向移动的高效性与先进推理能力相结合。

O

Olivier Lacombe

Google DeepMind 产品管理总监

G

Gus Martins

Google DeepMind 产品经理

图 1:Gemma 4 12B 统一 Transformer

音频 3

收听文章 本内容由 Google AI 生成。生成式 AI 仍处于实验阶段

[[duration]] 分钟

今天,我们推出 Gemma 4 12B,这是我们的最新模型,旨在将具备代理能力的多模态智能直接带到笔记本电脑。它在我们面向边缘的 E4B 与更先进的 26B 混合专家(MoE)之间架起桥梁,将强大能力封装在更小的内存占用中。它也是我们首个原生支持音频输入的中等规模模型。

得益于开发者社区,Gemma 4 模型的下载量已突破 1500 万。你们已经构建了从可穿戴机械臂企业级 AI 安全的众多应用。我们迫不及待想看到你们用这个最新版本能创造出什么。

以下是 Gemma 4 12B 的独特之处:

  • 创新统一架构: 无需多模态编码器。视觉和音频输入直接流入 LLM 主干。
  • 先进推理: 在标准基准上接近 26B 模型的性能,解锁强大的多步推理与代理工作流。
  • 笔记本电脑友好: 体积小巧,仅需 16GB 显存或统一内存即可本地运行。
  • 开放且易用: 采用 Apache 2.0 许可发布,并获得开发者生态的广泛支持。
  • 具备 Drafters: 配备多令牌预测(MTP)Drafters,显著降低延迟。

这些特性共同将先进的多模态能力带入日常硬件,同时不牺牲速度与推理能力。接下来,让我们深入了解 Gemma 4 12B 是如何实现这一点的。

在本地运行前沿代理

Gemma 4 12B 在标准基准上的性能接近更大的 26B MoE 模型,但总体内存占用不到一半。体积足够小,可在配备 16GB 内存的消费级笔记本上本地运行,让你的设备即可获得强大的多模态与代理体验。

体验高效统一架构

Gemma 4 12B 的与众不同之处在于其处理视觉与音频输入的精简方式。传统多模态模型通常依赖独立编码器,先将图像与音频转换为表示,再传递给语言模型。由于这些分离的编码器会增加延迟并占用更多内存,我们为 Gemma 4 12B 采用无编码器架构,直接将音频与视觉输入整合到模型中。

以下是 Gemma 4 12B 如何原生处理多模态输入:

  • 视觉: 用轻量级嵌入模块替代视觉编码器,仅包含一次矩阵乘法、位置嵌入与归一化,使 LLM 主干接管视觉处理。
  • 音频: 进一步简化音频处理。完全移除音频编码器,将原始音频信号投影到与文本 token 相同的维度空间。

想要深入了解的开发者,请参阅配套的 Gemma 4 12B 开发者指南

观看原生音频处理的实际效果:使用 Google AI Edge Eloquent 应用,Gemma 4 12B 可完全离线地转录、格式化并翻译语音输入。

立即开始

相关故事

AI 可能会生成不准确的信息,请核实重要内容

推出 Gemma 4 12B:面向本机的统一、无编码器多模态模型 | The Keyword (blog.google) | traeai