T
traeai
登录
返回首页
InfoQ

Gemma 4 12B Enables On-Device, Multimodal Agentic Workflows with an Encoder-free Architecture

7.1Score
Gemma 4 12B Enables On-Device, Multimodal Agentic Workflows with an Encoder-free Architecture

TL;DR · AI 摘要

Gemma 4 12B Enables On-Device, Multimodal Agentic Workflows with an Encoder-free Architecture - InfoQ InfoQ Homepage New...

核心要点

  • 主题聚焦:Gemma 4 12B Enables On-Device, Multimodal Agenti
  • 来源:InfoQ,建议结合原文判断细节。
  • AI 分析暂不可用,本条为保底评分与摘要。
#AI#编程#后端#云计算#安全
打开原文

Gemma 4 12B 采用无编码器架构,实现设备端多模态智能代理工作流程 - InfoQ

InfoQ 首页 News Gemma 4 12B 采用无编码器架构,实现设备端多模态智能代理工作流程

AI、机器学习与数据工程

为智能代理时代而设计:如何规范、构建、测试和运营 AI 驱动的系统(网络研讨会 7 月 16 日)

Gemma 4 12B 采用无编码器架构,实现设备端多模态智能代理工作流程

2026 年 6 月 8 日 2 分钟阅读

作者

  • Sergio De Simone

#### 为 InfoQ 写作

激发你的好奇心。

帮助 55 万+ 全球

高级开发人员

每月保持领先。

联系我

收听这篇文章 -

0:00

音频准备就绪

你的浏览器不支持音频元素。

正常

1.25x

1.5x

喜欢

新下拉阅读列表

  • 阅读列表

谷歌表示,Gemma 4 12B 是“专为将智能代理、多模态智能直接带到你的笔记本电脑而设计”,并进一步指出,新模型可以与 Google AI Edge 结合使用,“在日常设备上本地构建和实验”。这种集成使设备具备了多种能力,从自主数据处理到生成视觉洞察,甚至构建网页或执行工具。

在架构上,Gemma 4 12B 采用了一种新颖的统一、多模态无编码器架构,通过直接将多模态数据输入到大型语言模型(LLM)中,从而避免了使用独立的、多阶段的视觉和音频编码器的需要。这种设计解决了传统多模态模型中常见的低效问题,这些模型依赖于独立的视频和音频编码器作为预处理步骤,导致延迟增加和内存占用碎片化。

Gemma 4 12B 通过使用一个单一的解码器-only 变换器来解决这些问题,该变换器包含与 Gemma 4 31B Dense 模型相同的先进解码器结构。

3500 万参数的视觉嵌入器取代了其他中型 Gemma 4 模型中使用的 27 层视觉变换器,通过单次矩阵乘法将原始 48×48 像素块直接投影到 LLM 的隐藏空间中,同时在输入阶段通过因子化 X–Y 坐标查找注入空间位置信息。

音频波投影消除了对独立音频编码器的需求。相反,它直接将 16 kHz 音频切分为 40 毫秒的帧(640 个样本),并线性地将它们投影到 LLM 输入空间中。

此外,使用相同的权重处理多模态输入简化了微调过程,允许适配器(如 LoRA)或全量微调在一次单次传递中更新整个多模态循环。

Gemma 4 12B 可通过 Google AI Edge Gallery 展示应用、Google AI Edge Eloquent 设备端语音输入应用以及 LiteRT-LM 进行访问。

通过 Google AI Edge Gallery 应用,开发人员可以“即时生成和执行脚本”,并将自然语言指令转换为可运行的代码。例如,谷歌展示了该模型创建一个 Python 程序,用于生成一张 PNG 图表,比较 2024 年与 2025 年出生的前 10 名女孩名字。

最后,Genmma 4 12B 可以与现有工具如 OpenCode 一起使用,通过 LiteRT-LM 的支持,可以使用 litert-lm serve 启动一个兼容 OpenAI 的服务器,或者使用 llama.cpp。该模型可通过 Hugging Face、Ollama、LM Studio、Google Cloud 和其他平台获得。

在 Reddit 上,LoveMind_AI 写道:“这可能是我很久以来听说过的最令人兴奋的模型之一。无编码器的模型是……非常酷。在 12B 模型上原生处理音频非常令人兴奋。”同样,Wrong_Mushroom 解释说,无编码器的优势在于“它允许你在不使用额外文件的情况下共享图像和音频。这也意味着模型的数据集是以这些目标进行训练的。因此,理论上它应该更加准确”。

谈到模型的编码能力时,尽管一些评论者对其效果表示怀疑,但很少有人写到他使用它“构建了一个带有服务器和客户端的 Python 应用程序。我对它表现得如此出色感到震惊。上下文非常丰富(以好的方式)。它一次就能处理很多任务而不会出错”。此外,triynizzles 表示:“它在简单任务上表现不错,但不能替代 Qwen 3.6”,他解释说,他成功地使用它来解释给定的代码路径或修复逻辑错误,但可能对于“任何更模糊的问题,它开始变得不可靠”。

要深入了解该模型及其架构,请不要错过 Maarten Grootendorst 的分析。

作者部分的主包装器

关于作者

部分标题

每个作者的主包装器

#### Sergio De Simone

显示更多

显示更少

#### 此内容属于 AI、机器学习与数据工程主题

##### 相关主题:

  • 开发
  • AI、机器学习与数据工程
  • 大型语言模型
  • Google
  • Gemma
  • 代理
  • 相关编辑
  • 相关赞助商 使用代理 AI 构建最佳实践应用 —— 融入架构防护措施以实现确定性结果
  • 相关赞助商 代码助手使一个开发者更快。WaveMaker 使 10 个小组保持一致。通过架构治理和可预测的结果,实现不同技能水平的开发人员的一致性。尝试 WaveMaker AI。

InfoQ 新闻简报

每周二发送上一周 InfoQ 内容的摘要。加入超过 250,000 名高级开发人员的社区。查看示例

我们保护您的隐私。

AI 可能会生成不准确的信息,请核实重要内容

Gemma 4 12B Enables On-Device, Multimodal Agentic Workflows with an Encoder-free Architecture | InfoQ | traeai