从46%到90%：为设备端代理微调小型LLM——Cormac Brick，Google

介绍在设备端部署小型LLM（<1B参数）的动机，包括低延迟、隐私保护和离线使用等优势。

TensorFlow Lite作为跨框架运行时，支持MediaPipe和Lighter TLM模型部署，可运行于CPU/GPU/NPU。

通过AI Core预装Gemini Nano模型，提供总结等API，覆盖27亿Android设备。

Gemini 4模型在NPU/GPU上的部署实现高效推理，支持iOS/Android等多平台。

展示基于系统GenAI构建自定义代理技能的开发方法与工具链。

AI Engineer视频2026年5月20日

8.5内容质量

可直接观看的视频资源打开原视频

TL;DR · AI 摘要

Google的AI Edge平台通过优化小型LLM（如Gemini Nano）和代理技能，将设备端推理性能从46%提升至90%，支持跨平台部署并集成TensorFlow Lite运行时。

按章节快速跳转。

§设备端代理与小型LLM的优势
介绍在设备端部署小型LLM（<1B参数）的动机，包括低延迟、隐私保护和离线使用等优势。
·AI Edge平台架构
TensorFlow Lite作为跨框架运行时，支持MediaPipe和Lighter TLM模型部署，可运行于CPU/GPU/NPU。
·系统级GenAI部署
通过AI Core预装Gemini Nano模型，提供总结等API，覆盖27亿Android设备。
·跨平台性能优化
Gemini 4模型在NPU/GPU上的部署实现高效推理，支持iOS/Android等多平台。
·代理技能开发框架
展示基于系统GenAI构建自定义代理技能的开发方法与工具链。

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

值得收藏与分享的关键句。

#Tiny LLMs#TensorFlow Lite#Gemini Nano#AI Edge#Google