Benchmark and optimize LLMs on-device with AI Edge Portal

Google Cloud Blog

Google Cloud Blog2026年5月20日

Benchmark and optimize LLMs on-device with AI Edge Portal

8.5内容质量

TL;DR · AI 摘要

Google AI Edge Portal新增LLM基准测试和调试功能，支持在120+ Android设备上优化模型性能，提供初始化时间、解码速度等关键指标分析及可视化调试工具。

核心要点

AI Edge Portal支持在120+ Android设备上测试LLM，提供初始化时间、预填速度等4项核心性能指标
Model Explorer工具通过双视图对比和分层分析，帮助定位模型转换和量化中的精度损失问题
新增的峰值内存监控功能可提前识别内存溢出风险，避免应用崩溃

结构提纲

按章节快速跳转。

§引言
介绍AI Edge Portal解决边缘设备部署LLM的挑战，支持跨120+设备测试和优化
·基准测试功能
详细说明支持120+设备测试的4项核心指标（初始化时间/预填速度/解码速度/峰值内存）及其工程意义
·Model Explorer调试工具
介绍可视化模型图分析功能，支持分层对比、量化策略评估和团队协作

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

LLM边缘优化
- 基准测试
  - 初始化时间
  - 预填速度
  - 解码速度
  - 峰值内存
- 调试工具
  - 模型图可视化
  - 量化策略评估
  - 团队协作功能

金句 / Highlights

值得收藏与分享的关键句。

支持在120+ Android设备上测试LLM，覆盖CPU/GPU/NPU三种后端架构
— 第1段
⬇︎ 下载 PNG 𝕏 分享到 X
峰值内存监控可提前识别内存溢出风险，尤其在低端设备上降低崩溃概率
— 第2段
⬇︎ 下载 PNG 𝕏 分享到 X
Model Explorer通过双视图对比，可精准定位模型转换中的异常节点
— 第3段
⬇︎ 下载 PNG 𝕏 分享到 X

#LLM优化#边缘计算#Android设备#Google AI Edge Portal#Model Explorer

打开原文

随着LLM在更小规模下变得更为强大，将其部署到智能手机等边缘设备仍面临巨大挑战。目前，开发者需要在广泛的加速器、操作系统和数百种系统级芯片（SoC）配置中进行优化，通常只能依赖少量设备的手动测试。Google AI Edge Portal 可帮助解决这些问题。

通过允许开发者在包含120多种代表性Android设备类型的实验室中测试ML工作负载，Google AI Edge Portal提供了对CPU、GPU和NPU后端延迟及性能的深入洞察。

今天，我们激动地宣布为生成式AI时代扩展Google AI Edge Portal的两项新功能：设备端LLM的基准测试和调试。这些新服务帮助开发者高效、精准地优化整个Android生态系统中的生成式AI性能。

在超过120种移动设备上基准测试LLM

当用户与您应用中的LLM增强体验交互时，他们期望设备能提供快速且一致的性能。常见挑战如模型初始化时间过长可能导致应用界面冻结，甚至在极端情况下因内存耗尽而崩溃。

借助Google AI Edge Portal的最新版本，开发者现在可以直接在包含120多种多样化Android设备的物理实验室中运行自动化生成式AI基准测试，并针对这些场景进行专项测试。Portal原生支持以LiteRT-LM格式的LLM在CPU和GPU上的基准测试。

Image 1: https://storage.googleapis.com/gweb-cloudblog-publish/original_images/B-Portal.gif

客户可以在超过120款Android设备上测试生成式AI模型，查看包括初始化时间、预填速度、解码速度和峰值内存使用量等指标。

当通过Portal触发生成式AI基准测试任务时，系统会分析影响用户在设备上使用AI应用体验的关键指标：

指标 | 衡量内容 | 对您的意义 ---|---|--- 初始化时间 | 测量模型加载到内存所需的时间。 | 过长的初始化时间可能导致应用启动时界面延迟或冻结。 预填速度 | 记录设备处理提示词生成首个输出词的速度。 | 决定用户看到首个响应前的初始延迟。 解码速度 | 测量模型在响应过程中生成词的速度。 | 决定输出生成的速率。 峰值内存 | 监控最大RAM使用量。 | 标识潜在“内存不足”崩溃风险，尤其在内存受限设备上。

借助这些洞察，您可以在发布前自信地确定哪些设备可承载您的模型，并针对目标设备调整或优化LLM。

通过Model Explorer轻松调试性能

基准测试的价值取决于能否修复发现的性能问题。当LLM表现不佳时，开发者需要在复杂的多层和数千节点图中定位根本原因，这一过程耗时耗力，可能需要数小时甚至数天。

为弥合这一差距，我们新增了在Portal中轻松可视化和比较模型图的功能。通过原生集成的Model Explorer（我们的图形可视化工具），您可以搜索特定节点、在同一标签页中并排比较模型，查看张量形状、追踪输入输出等。为加快团队调试速度，我们还新增了直接截图并分享特定视图给Google Cloud协作者的功能。

这些可视化是识别优化目标的最有效方式之一，包括：

转换：Model Explorer通过双视图比较工具简化转换异常的识别。该界面允许通过选择性展开或折叠特定层来遍历复杂模型架构，帮助您以精确的粒度分析内部依赖关系和结构节点。
量化：Model Explorer帮助检测量化可能损害性能的具体操作。通过按误差指标排序层，您可以定位精度损失、访问逐层数据，并评估不同量化策略以平衡模型体积与输出质量。
优化：使用Model Explorer可视化硬件兼容性，按延迟组织操作，并跨不同硬件加速器进行逐操作性能对比。

Image 2: https://storage.googleapis.com/gweb-cloudblog-publish/original_images/C-MEX.gif

借助Model Explorer，您可以查看模型图、定位特定层，并并排比较模型以调试性能。

立即开始在设备上基准测试LLM

随着设备端LLM时代到来，我们致力于弥合基准测试的关键差距，将AI的强大能力带到市场上数千种智能手机型号中。如需使用这些最新功能，请通过注册表单表达兴趣。

Google AI Edge Portal 目前向列入名单的 Google Cloud 客户开放私密预览。在此预览期间，用户可免费访问该服务，但需遵守预览条款。所有当前获准的客户将自动获得这些新功能的访问权限。

我们迫不及待想看到您通过 Google AI Edge Portal 在各类设备上部署的生成式 AI 能力！

_ * *

感谢团队成员及合作伙伴为此次版本的创新突破所作出的贡献：Akshat Sharma, Ami Kubota, Charlie Xu, Chunlei Niu, Cormac Brick, Derek Bekebrede, Eric Yang, Jing Jin, Kathleen Low, Matthias Grundmann, Marissa Ikonomidis, Na Li, Ram Iyengar, Sachin Kotwani, Sommayah Soliman, Tenghui Zhu, Xiaoming Hu, Zi Yuan_

Posted in

人工智能与机器学习