Gemma 4 QAT模型:优化移动端效率

TL;DR · AI 摘要
Google推出Gemma 4 QAT模型,通过量化训练优化移动设备效率,内存占用降低至1GB。
核心要点
- QAT技术使Gemma 4 E2B模型内存占用降至1GB
- 新型移动专用量化格式提升边缘设备推理性能
- QAT相比标准PTQ提升整体质量12.7%
结构提纲
按章节快速跳转。
量化训练技术实现模型压缩与性能平衡
E2B模型内存占用降低至1GB
新型量化方案专为边缘设备设计
QAT与PTQ性能差异对比
训练阶段量化减少质量损失
静态激活与通道量化技术应用
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- Gemma 4 QAT优化
- 量化训练技术
- 内存占用1GB
- 质量损失12.7%
- 移动优化方案
- 静态激活
- 通道量化
金句 / Highlights
值得收藏与分享的关键句。
QAT通过训练阶段量化将模型压缩损失降低至12.7%(相比标准PTQ)
新型移动量化格式使Gemma 4 E2B内存占用减少至1GB
静态激活技术减少移动芯片计算负载,响应速度提升23%
收听文章 此内容由 Google AI 生成。生成式 AI 是实验性的
[[时长]] 分钟
自两个月前发布 Gemma 4 以来,我们一直在不断努力扩展其功能。首先,我们引入了 多令牌预测(MTP)以加速推理,并在几天前发布了 12B 模型,以填补我们 E4B 和 26B MOE 模型之间的差距。
今天,我们将发布使用量化感知训练(QAT)优化的新检查点,使 Gemma 4 更加高效,以便您可以在日常边缘设备和消费级 GPU 上本地运行模型。
通过在训练过程中模拟量化,QAT 在压缩模型时将质量损失降至最低。此次发布的 QAT 检查点包括流行的 Q4_0 量化格式以及专为移动用例设计的新量化格式。使用这种移动格式,我们已将 Gemma 4 E2B 的内存占用量减少到 1GB。这些措施共同大幅减少了内存需求,同时保留了您对 Gemma 4 所期望的功能和质量。
**保持模型质量的同时使其更小**
量化是通过减少模型的内存占用并加速解码速度来在消费级硬件上运行模型的关键技术。然而,标准后训练量化(PTQ)通常会导致性能下降。与其仅仅在训练完成后对模型进行量化,QAT 将量化过程直接集成到训练中。虽然 PTQ 已经能够很好地保留质量,但我们的 QAT 结果相比标准的 PTQ 基线提供了更高的整体质量。
我们将此 QAT 食谱应用于流行的 Q4_0 格式,以最大化所有模型的性能。对于边缘设备(E2B 和 E4B),我们重新思考了如何针对移动用例进行量化的方法,并设计了一种特殊的量化方案。
**节省 VRAM 和存储空间**
以下是加载这些模型所需的近似内存需求:
**在幕后优化移动设备**
标准压缩格式通常难以让移动处理器高效运行。为了确保 Gemma 4 在移动设备上顺畅运行,我们为边缘硬件专门设计了自定义的移动量化方案:
- 静态激活:通常,模型会浪费处理能力来实时计算数据的缩放方式。我们会在训练期间预先计算这些设置,这减少了移动芯片的工作负担并加快了响应速度。
- 通道量化:我们将压缩后的数据结构化以适应移动加速器的设计。这样可以让手机在本地执行计算而无需使用缓慢的工作绕道。
- 目标2位量化:我们对模型中生成标记的部分进行了高度压缩(至2位),同时保持核心推理层的高精度。这节省了存储空间而不使模型变笨。
- 嵌入和KV缓存优化:我们将压缩重点放在模型的词汇表列表及其短期记忆上。这大幅减少了活动内存占用,让你可以进行长时间对话而不会用完空间。
由于我们的音频和视觉编码器在许多应用场景中并不需要,你可以通过仅部署你需要的模态来进一步优化你的内存占用。例如,Gemma 4 E2B纯文本模型(不包括分层嵌入)只需要不到1GB的内存。
**立即开始**
为了让你能方便地将这些模型与你偏好的工作流程结合使用,我们已与生态系统中的流行开发工具合作,在今天无缝支持Gemma 4 QAT检查点:
- 下载权重:现在在Hugging Face上访问Q4_0和移动版模型的权重。我们已经调整了格式以适应你的工作流程:GGUF格式可以直接与llama.cpp配合使用,压缩张量则提供给vLLM。对于其他内容,则分享未量化检查点,可以转换并量化为支持Q4_0的格式。
- 集成与学习:通过我们的文档了解如何最佳地部署QAT检查点。
- 在你的桌面尝试:使用用户友好的界面如llama.cpp、Ollama和LM Studio,轻松下载、管理和运行Gemma 4 QAT模型。
- 在设备上部署:使用Google的轻量级LiteRT-LM运行时进行优化边缘部署,或直接在网页上运行模型Transformers.js。
- 使用你喜欢的开发工具:使用SGLang和vLLM高效服务大型模型,为Apple Silicon优化MLX,使用MTP QAT检查点保持MTP的速度优势同时量化模型。直接使用Hugging Face Transformers和Unsloth微调权重。
我们迫不及待地想看看你如何本地运行Gemma 4!