Gemma 4 12B Enables On-Device, Multimodal Agentic Workflows with an Encoder-free Architecture

InfoQ

InfoQ2026年6月8日

Gemma 4 12B Enables On-Device, Multimodal Agentic Workflows with an Encoder-free Architecture

7.1内容质量

TL;DR · AI 摘要

Gemma 4 12B Enables On-Device, Multimodal Agentic Workflows with an Encoder-free Architecture - InfoQ InfoQ Homepage New...

核心要点

主题聚焦：Gemma 4 12B Enables On-Device, Multimodal Agenti
来源：InfoQ，建议结合原文判断细节。
AI 分析暂不可用，本条为保底评分与摘要。

#AI#编程#后端#云计算#安全

打开原文

Gemma 4 12B 采用无编码器架构，实现设备端多模态智能代理工作流程 - InfoQ

InfoQ 首页 News Gemma 4 12B 采用无编码器架构，实现设备端多模态智能代理工作流程

AI、机器学习与数据工程

为智能代理时代而设计：如何规范、构建、测试和运营 AI 驱动的系统（网络研讨会 7 月 16 日）

Gemma 4 12B 采用无编码器架构，实现设备端多模态智能代理工作流程

2026 年 6 月 8 日 2 分钟阅读

作者

Sergio De Simone

#### 为 InfoQ 写作

激发你的好奇心。

帮助 55 万+ 全球

高级开发人员

每月保持领先。

联系我

收听这篇文章 -

0:00

音频准备就绪

你的浏览器不支持音频元素。

正常

1.25x

1.5x

喜欢

新下拉阅读列表

阅读列表

谷歌表示，Gemma 4 12B 是“专为将智能代理、多模态智能直接带到你的笔记本电脑而设计”，并进一步指出，新模型可以与 Google AI Edge 结合使用，“在日常设备上本地构建和实验”。这种集成使设备具备了多种能力，从自主数据处理到生成视觉洞察，甚至构建网页或执行工具。

在架构上，Gemma 4 12B 采用了一种新颖的统一、多模态无编码器架构，通过直接将多模态数据输入到大型语言模型（LLM）中，从而避免了使用独立的、多阶段的视觉和音频编码器的需要。这种设计解决了传统多模态模型中常见的低效问题，这些模型依赖于独立的视频和音频编码器作为预处理步骤，导致延迟增加和内存占用碎片化。

Gemma 4 12B 通过使用一个单一的解码器-only 变换器来解决这些问题，该变换器包含与 Gemma 4 31B Dense 模型相同的先进解码器结构。

3500 万参数的视觉嵌入器取代了其他中型 Gemma 4 模型中使用的 27 层视觉变换器，通过单次矩阵乘法将原始 48×48 像素块直接投影到 LLM 的隐藏空间中，同时在输入阶段通过因子化 X–Y 坐标查找注入空间位置信息。

音频波投影消除了对独立音频编码器的需求。相反，它直接将 16 kHz 音频切分为 40 毫秒的帧（640 个样本），并线性地将它们投影到 LLM 输入空间中。

此外，使用相同的权重处理多模态输入简化了微调过程，允许适配器（如 LoRA）或全量微调在一次单次传递中更新整个多模态循环。

Gemma 4 12B 可通过 Google AI Edge Gallery 展示应用、Google AI Edge Eloquent 设备端语音输入应用以及 LiteRT-LM 进行访问。

通过 Google AI Edge Gallery 应用，开发人员可以“即时生成和执行脚本”，并将自然语言指令转换为可运行的代码。例如，谷歌展示了该模型创建一个 Python 程序，用于生成一张 PNG 图表，比较 2024 年与 2025 年出生的前 10 名女孩名字。

最后，Genmma 4 12B 可以与现有工具如 OpenCode 一起使用，通过 LiteRT-LM 的支持，可以使用 litert-lm serve 启动一个兼容 OpenAI 的服务器，或者使用 llama.cpp。该模型可通过 Hugging Face、Ollama、LM Studio、Google Cloud 和其他平台获得。

在 Reddit 上，LoveMind_AI 写道：“这可能是我很久以来听说过的最令人兴奋的模型之一。无编码器的模型是……非常酷。在 12B 模型上原生处理音频非常令人兴奋。”同样，Wrong_Mushroom 解释说，无编码器的优势在于“它允许你在不使用额外文件的情况下共享图像和音频。这也意味着模型的数据集是以这些目标进行训练的。因此，理论上它应该更加准确”。

谈到模型的编码能力时，尽管一些评论者对其效果表示怀疑，但很少有人写到他使用它“构建了一个带有服务器和客户端的 Python 应用程序。我对它表现得如此出色感到震惊。上下文非常丰富（以好的方式）。它一次就能处理很多任务而不会出错”。此外，triynizzles 表示：“它在简单任务上表现不错，但不能替代 Qwen 3.6”，他解释说，他成功地使用它来解释给定的代码路径或修复逻辑错误，但可能对于“任何更模糊的问题，它开始变得不可靠”。

要深入了解该模型及其架构，请不要错过 Maarten Grootendorst 的分析。

作者部分的主包装器

关于作者

部分标题

每个作者的主包装器

#### Sergio De Simone

显示更多

显示更少

#### 此内容属于 AI、机器学习与数据工程主题

##### 相关主题：

开发

AI、机器学习与数据工程

大型语言模型

Google

Gemma

代理

相关编辑

相关赞助商使用代理 AI 构建最佳实践应用 —— 融入架构防护措施以实现确定性结果

相关赞助商代码助手使一个开发者更快。WaveMaker 使 10 个小组保持一致。通过架构治理和可预测的结果，实现不同技能水平的开发人员的一致性。尝试 WaveMaker AI。

InfoQ 新闻简报

每周二发送上一周 InfoQ 内容的摘要。加入超过 250,000 名高级开发人员的社区。查看示例

我们保护您的隐私。