LiteRT-LM:设备端 GenAI 的极速体验

TL;DR · AI 摘要
Google AI Edge 发布 LiteRT-LM 推理引擎,专为在边缘设备上高效运行 Gemma 4 模型设计,支持 Android、iOS、Web 多平台,GPU 推理可达 76 tokens/sec,结合 Multi-Token Prediction 技术实现 2.2 倍加速。
核心要点
- LiteRT-LM 在 Android GPU (OpenCL) 上实现 52 tokens/sec 解码速度,iOS (Metal) 达 56 tokens/
- 通过 Multi-Token Prediction (MTP) 投机解码架构,LiteRT-LM 相比标准推理实现最高 2.2 倍加速
- LiteRT-LM 已部署于 Chrome、ChromeOS、Pixel Watch 及 Google AI Edge Gallery 应用,支持 CPU/GP
结构提纲
按章节快速跳转。
Google AI Edge 发布 LiteRT-LM,这是一款专为在 Chrome、ChromeOS、Pixel Watch 和 Google AI Edge Gallery 应用上部署 Gemma 4 模型而优化的推理引擎。
Google AI Edge 技术栈通过 XNNPACK 和 MLDrift 内核配合高级量化技术,实现跨 CPU、GPU 和 NPU 后端的流畅模型执行。
LiteRT-LM 在 Android GPU 上达到 52 tokens/sec,iOS Metal 达 56 tokens/sec,WebGPU 在 MacBook Pro 上可达 76 tokens/sec,证明了平台无关的高性能表现。
原生 MTP 支持实现了投机解码,绕过传统延迟瓶颈,通过优化主模型与draft模型间的内存局部性,最高实现 2.2 倍加速。
LiteRT-LM 通过 LiteRT 运行时提供最优硬件后端优化,允许开发者一次开发即可在 Android、iOS 和 Web 平台上获得峰值性能。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- LiteRT-LM 边缘AI推理引擎
- 核心特性
- 多平台支持 (Android/iOS/Web)
- 多后端加速 (CPU/GPU/NPU)
- XNNPACK + MLDrift 优化内核
- 性能表现
- GPU: 52-76 tokens/sec
- MTP 2.2倍加速
- 低延迟推理
- 应用场景
- Chrome/ChromeOS
- Pixel Watch
- Google AI Edge Gallery
金句 / Highlights
值得收藏与分享的关键句。
LiteRT-LM 在 Android GPU (OpenCL) 上实现 52 tokens/sec 解码速度,iOS (Metal) 达 56 tokens/sec。
在 Web 上使用 WebGPU,开发者可在 MacBook Pro 上获得高达 76 tokens/sec 的解码速度,证明先进的设备端 AI 已成为现实。
通过集成这种专门的投机解码架构,LiteRT-LM 绕过传统延迟瓶颈,实现最高 2.2 倍加速。
LiteRT-LM 通过在同一硬件 IP 上执行轻量级 MTP draft模型和主模型来强制内存局部性,防止数据传输瓶颈。
2026年5月19日
在将先进 AI 带到边缘设备方面,Google AI Edge 的 LiteRT-LM 为跨平台部署 Gemma 4 提供了最强大且经过深度优化的体验。LiteRT-LM 利用 LiteRT(原 TensorFlow Lite)进行推理,为众多 Google 产品赋能本地 AI——包括 Chrome、ChromeOS、Pixel Watch,以及近期爆火的 Google AI Edge Gallery 应用(Android / iOS)。从释放 Gemma 4 最先进的代理能力到扩展我们严苛的生产用例,这个经过验证的引擎现已准备好为您的应用提供动力。请继续阅读,深入了解底层堆栈以及如何将 LiteRT-LM 用于您自己的边缘 LLM 部署。
**卓越的性能表现**
为了在设备上充分发挥 Gemma 4 的潜力,我们采用了 Google AI Edge 堆栈,这是跨平台运行 Gemma 4 性能最优的方式(为了获得更高性能,Gemma 4 可以通过 Android AICore 作为系统服务运行)。为了应对内存受限、计算资源有限和硬件碎片化的挑战,该堆栈支持高级量化方案,并建立在加速的 XNNPACK 和 MLDrift 内核基础上。通过将这一高效架构与 LiteRT 运行时相结合,该堆栈实现了跨 CPU、GPU 和 NPU 后端的无缝模型执行和广泛的可移植性。最后,在编排层,LiteRT-LM 利用优化管道避免昂贵的 CPU/GPU 数据传输,同时支持多令牌预测(MTP)和高级会话管理。这种完整的集成为 Gemma 模型提供了最高性能的运行时环境。

LiteRT-LM 预填充和解码性能运行 Gemma 4 E2B(Android:Samsung S26 Ultra,iOS:iPhone 17 Pro,Web:搭载 Apple M4 Max 的 2024 款 MacBook Pro 上的 Chrome)。
**为跨硬件后端和平台的速度而生**
LiteRT-LM 经过精心设计,能够在整个边缘生态系统中提供卓越的性能,确保在 Android、iOS 和开放 Web 上实现低延迟推理。为了实现这一目标,该运行时通过 LiteRT 提供最优的硬件后端优化,通过 CPU、GPU 和 NPU(目前在 Android 上)无缝加速工作负载。这种方法允许开发者构建一次即可在所有平台上实现峰值性能:
- 在未启用 MTP 的情况下运行 Gemma 4 E2B 时,LiteRT-LM 在 Android GPU 后端(OpenCL)上实现了令人印象深刻的 52 tokens/秒解码速度,在 iOS(Metal)上达到 56 tokens/秒。
- 在 Web 上使用 WebGPU,开发者可以期待在 Macbook Pro 上达到高达 76 tokens/秒的解码速度,证明了最先进的设备端 AI 已成为现实,无论用户的平台或硬件如何。
**多令牌预测(MTP)实现峰值吞吐量**
LiteRT-LM 管道中最重要的性能里程碑之一是我们对最近随 Gemma 4 模型系列推出的多令牌预测(MTP)草稿器的原生支持。通过集成这种专门的推测解码架构,LiteRT-LM 突破了传统延迟瓶颈,实现了高达 2.2 倍的加速。
标准 LLM 推理从根本上受内存带宽限制;处理器大部分时间都在将数十亿参数从 VRAM 移动到计算单元,仅仅为了生成一个令牌。虽然推测解码缓解了这个问题,但朴素的实现可能会引入新的瓶颈。LiteRT-LM 通过优化主 Gemma 4 模型与 MTP 草稿器之间的数据交互来防止这种情况。
为了实现这一点,LiteRT-LM 通过在同一个硬件 IP(例如 GPU)上执行轻量级 MTP 草稿器和主模型来强制执行内存局部性。在本地内存中完全管理共享的 KV 缓存和激活,完全消除了跨 IP 同步和数据传输的延迟惩罚。一旦草稿器预测了未来的令牌,主模型就会使用优化内核在验证期间最大化并行化。这种精简的架构在不损失推理质量的情况下加速了多令牌吞吐量。

在 LiteRT-LM 管道中启用 MTP 只需要两行配置,即可为低延迟应用即时解锁高达 2.2 倍的解码加速。报告的数据是在使用 GPU 后端的 Samsung S26 Ultra 上收集的。
**实现速度和连续性的会话管理**
高级会话管理
LiteRT-LM 中的高级会话管理从根本上改变了移动应用程序处理长上下文交互的方式。通过支持原生会话保存和恢复功能,该引擎允许大型 KV 缓存状态(代表更长的上下文历史)在会话之间进行序列化并安全保存。这种架构保证了无缝的用户连续性,允许对话或工作流无缝恢复。除了用户体验优势之外,这种机制还提供了更好的后端效率:保留上下文状态减少了冗余计算的需求,并避免了返回会话时的繁重预填充阶段。这种效率为 Google AI Edge Gallery 应用 中的扩展代理技能等动态功能提供了支持,在提供令人难以置信的快速端到端设备端体验的同时降低了整体计算成本。
**高效的内存利用**
为确保 Gemma 4 原生视觉和音频功能在设备端的无缝部署,LiteRT-LM 采用了先进的内存占用优化,在严格的硬件约束内最大化效率。运行时通过将逐层嵌入(PLE)保留在内存之外,并通过动态加载图像和音频编码器(仅在特定任务需要时)来策略性地减少开销,确保纯文本工作负载保持极轻量。LiteRT-LM 还针对 CPU 执行高度优化了整体内存消耗,使开发者能够在保持最小设备占用的同时实现稳健的性能——请务必查看官方模型卡(E2B、E4B)了解具体的内存基准测试。
这些组合技术的成果是精简的运行时占用——例如,LiteRT-LM 成功运行约 2.58GB 的 Gemma 4 E2B 模型,在 Apple 移动 CPU 上使用 XNNPACK 的权重缓存机制,物理内存占用仅为 607MB。这种活动内存开销的减少确保了稳健的企业级 AI 性能,同时不会影响应用的整体稳定性。
**编排代理工作流:思考、格式化和行动**
为确保模型在触发任何外部操作之前执行高度复杂的多步骤任务,LiteRT-LM 原生支持思考模式(在 Gemma 4 模型系列中可用)。通过在模型承诺行动之前为逐步推理预留草稿板,LiteRT-LM 可以显著提高输出质量。开发者可以选择将此原始推理过程直接流式传输到 UI,或将其剥离以在多轮移动会话中节省关键的 KV 缓存空间。
一旦模型完成其内部推理,保持其输出结构化至关重要。结合强大的约束解码(CD),开发者可以在最终生成的工具负载上强制执行严格的 JSON 模式或特定输出语法,完全消除解析器中断。

在三星 S25 Ultra CPU 上,思考 + 约束解码支持带来的质量提升。
在建立深度思考和严格边界之后,模型已准备好采取行动。LiteRT-LM 支持原生函数调用功能引入于 FunctionGemma,并在 Gemma 4 中得到完善。运行时无缝暂停执行,将结构化工具调用请求返回到应用程序层,并在收到工具输出后恢复。
**扩展集成范围**
LiteRT-LM 从根本上构建为跨平台,我们现在正在扩展除 Android 支持(Kotlin/C++)之外的功能,为 Apple 生态系统提供新的接口(Swift API)和开放 Web(JavaScript API)。
**使用 Swift 进行原生开发**
为 Gemma 模型扩展最先进性能的同时,LiteRT-LM 现在通过完全开源的 iOS Swift API 解锁原生 Apple 开发。

在 iPhone 17 Pro 上测试的 iOS Swift LiteRT-LM 与 MLX 的性能对比。
**使用 WebGPU 实现高性能浏览器推理**
我们还将 LiteRT-LM 的强大功能带入浏览器。这些经过生产验证的推理管道现在通过我们的 JavaScript API 在 Web(WASM)上完全可访问。借助 WebGPU,LiteRT-LM 在客户端提供闪电般快速的 LLM 路由和执行,解锁无服务器、安全且完全隐私保护的 Web 应用程序。基于 MediaPipe LLM Inference 引擎 Web 解决方案 的基础性成功,LiteRT-LM 中的这种原生 Web 支持代表了我们的设备端 AI 堆栈的下一个演进。
视频 9 LiteRT-LM Web 演示在配备 18 个 GPU 核心的 Apple MacBook Pro M3 36GB 上运行。
我们的 Web 解决方案相比其他基于 Web 的 LLM 框架提供了显著的性能提升。

**展望未来**
当强大的 LLM 推理能力和真正的代理技能被带到边缘设备时,我们才刚刚触及可能性的表面。LiteRT-LM 消除了管理内存、硬件加速和跨平台差异的摩擦,让您能够构建下一代隐私优先、零延迟的应用程序。
我们希望您能尝试一下。请下载适用于桌面的 LiteRT-LM CLI 或适用于移动端的 AI Edge Gallery,或者今天就查看代码和 API,我们很期待看到您的作品。
**致谢**
我们要特别感谢本项目的主要贡献者所做的基础性工作:_Advait Jain、Alice Zheng、Cormac Brick、Byungchul Kim、Fengwu Yao、Jae Yoo Jenn Lee、Lu Wang、Marissa Ikonomidis、Matthew Chan、Matthew Soulanille、Matthias Grundmann、Mohammadreza Heydary、Ram Iyengar、Sachin Kotwani、Salil Tambe、Suleman Shahid、Tenghui Zhu、Tyler Mullen、Vinod Mamillapalli、Wai Hon Law、Weiyi Wang、Yi-Chun Kuo、Yu-hui Chen。_
在 io.google 上探索此公告及所有 Google I/O 2026 更新。
[](https://developers.googleblog.com/announcing-genkit-middleware-intercept-extend-and-harden-your-agentic-apps/) 上一页
下一页
[](https://developers.googleblog.com/an-important-update-transitioning-gemini-cli-to-antigravity-cli/)