Gemini Live Agent挑战赛：公布获奖者与亮点

Google Cloud Blog

Google Cloud Blog2026年5月15日

Gemini Live Agent挑战赛：公布获奖者与亮点

8.5Score

TL;DR · AI 摘要

Google Cloud宣布Gemini Live Agent挑战赛结果，展示创新的AI代理。

核心要点

11,878名参与者和1,536个项目来自151个国家。
ORION是用于机器人手术的语音驱动手术助手。
Drone-copilot使用户能通过自然语言实时控制无人机。

结构提纲

按章节快速跳转。

§引言
Google Cloud宣布Gemini Live Agent挑战赛结果，展示创新的AI代理。
·挑战目标
鼓励开发者突破传统文本框模式，构建下一代AI代理。
·参赛数据
全球11,878名参与者提交了1,536个项目，覆盖151个国家。
·获奖项目
包括手术辅助、无人机控制和多模态叙事等类别。
·获奖者经历
部分获奖者在Google Cloud Next 2026上分享了他们的开发经验。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

Gemini Live Agent Challenge
- 挑战目标
  - 突破传统文本框模式
  - 构建下一代AI代理
- 参赛情况
  - 11,878参与者
  - 1,536项目
  - 151个国家
- 获奖项目
  - ORION - 手术辅助
  - Drone-copilot - 无人机控制
  - Sankofa - 多模态叙事

金句 / Highlights

值得收藏与分享的关键句。

11,878 participants and 1,536 submitted projects from 151 countries.
— 第1段
⬇︎ 下载 PNG 𝕏 分享到 X
ORION is a voice-directed surgical co-pilot for robotic surgery.
— 第4段
⬇︎ 下载 PNG 𝕏 分享到 X
Drone-copilot enables natural conversation with drones for real-time control.
— 第5段
⬇︎ 下载 PNG 𝕏 分享到 X

#AI代理#Google Cloud

打开原文

标题：Gemini 实时智能体挑战赛获奖者与亮点

URL 来源：https://cloud.google.com/blog/topics/developers-practitioners/winners-and-highlights-of-the-gemini-live-agent-challenge/

发布时间：2026-05-15

Gemini 实时智能体挑战赛已圆满落幕！我们向全球开发者发起挑战，要求他们突破传统的“文本框”范式，构建下一代 AI 智能体。从我们的最初公告，到最终汇集了来自 151 个国家的 11,878 名参与者和 1,536 个提交项目，其成果堪称壮观。

本次挑战的使命是，利用 Gemini Live API、智能体开发套件（ADK）以及 Google Cloud 强大的基础设施，无缝整合多模态能力——构建能够帮助你实时观看、聆听、说话和创作的智能体。参赛者在三个不同类别中突破了交互式 AI 的边界：实时智能体、创意叙事者和 UI 导航器。

祝贺获得最高奖项的构建者们！这些获胜团队将技术精度与大胆的想象力相结合，彻底重新定义了用户与智能体互动和体验的方式。其中两位杰出的开发者甚至在 Google Cloud Next 2026 大会上获得了现场表彰。以下是他们的经历分享，以及完整的获奖智能体名单。

在 Google Cloud Next ‘26 上庆祝我们的类别获奖者

类别获奖者 Jeremiah Somoine 和 Bryen Param 受邀参加了在拉斯维加斯举行的 Google Cloud Next 2026 大会，并与更广泛的开发者社区分享了他们的经验和见解。两位获奖者均在展会现场的开发者剧场进行了闪电演讲，并在 GDE 和认证休息室的创作者工作室舱内接受了独家采访。

在活动期间，Bryen 讨论了 drone-copilot 背后的核心灵感。他解释说，他的项目源于“如果模型能与现实世界互动会怎样？”这个问题，展示了多模态能力如何弥合 AI 与物理环境之间的鸿沟。

图片 1: https://storage.googleapis.com/gweb-cloudblog-publish/images/bryen.max-2200x2200.jpg

Jeremiah 目前是一名大学生，他回顾了 Sankofa 背后的开发过程，并指出“对技术限制的最佳回应是创造性的解决方案”。当被问及他对其他希望构建下一代 AI 应用的学生有何建议时，他强调要抓住任何机会亲自动手实践技术。“最好的学习方式就是动手去做，”他说，并鼓励有抱负的开发者直接投入并开始构建。

图片 2: https://storage.googleapis.com/gweb-cloudblog-publish/images/jeremiah_edited.max-2200x2200.jpg

获奖者

大奖得主：[ORION - 手术室智能协调节点](https://devpost.com/software/orion-operating-room-intelligent-orchestration-node)

作者：Aditya Shukla

ORION，即手术室智能协调节点，是一个用于机器人手术的语音导向外科副驾驶。外科医生可以自然地说话，并立即获得答案、显示屏上的实时数据以及实时视觉辅助——所有这些都无需中断无菌操作。

图片 3: https://storage.googleapis.com/gweb-cloudblog-publish/images/maxresdefault_0lhMev0.max-1300x1300.jpg

* *

实时智能体类别获奖者：[drone-copilot](https://devpost.com/software/drone-copilot)

作者：Bryen Param

Drone-copilot 通过实现与无人机的自然、实时对话，而非使用操纵杆或复杂菜单，彻底改变了用户与硬件的交互方式。用户只需通过说话，即可指示无人机导航、执行自主视觉检查或描述其周围环境，同时无人机会实时进行语音响应并确认其行动。

图片 4: https://storage.googleapis.com/gweb-cloudblog-publish/images/maxresdefault_C6lpyed.max-1300x1300.jpg

* *

创意叙事者类别获奖者：[Sankofa](https://devpost.com/software/sankofa-y47f9p)

作者：Jeremiah Somoine

Sankofa 扮演了一个多模态 AI “格里奥”（griot）的角色——格里奥是西非传统的说书人——它将零散的家庭历史转化为深度沉浸式的叙事。仅基于用户提供的少量细节，它就能将丰富的语音叙述、水彩图像和环境音景编织成一个历史故事，并允许用户与这位说书人进行实时语音对话，以进一步探索他们的根源。

图片 5: https://storage.googleapis.com/gweb-cloudblog-publish/images/maxresdefault-1_1ApjCQc.max-1300x1300.jpg

* *

UI 导航器类别获奖者：[Moonwalk](https://devpost.com/software/moonwalk-tojsay)

作者：Enaiho Uwas Paul 和 Aman Kumar Sah

Moonwalk 是一款对话式、免提的桌面助手，它可以帮助用户仅凭语音就能直观地操作电脑并完成复杂任务。通过记住个人偏好和过往互动，它就像一个智能副驾驶，能够无缝控制你的鼠标和键盘来执行日常工作流——比如预订航班或管理电子表格——而你只需坐好并开口说话。

Image 6: https://storage.googleapis.com/gweb-cloudblog-publish/images/maxresdefault-2_djltYYE.max-1300x1300.jpg

* *

最佳多模态集成与用户体验奖得主：[Wand](https://devpost.com/software/wand-a-live-agent-that-sees-browses-and-clicks-with-you)

作者：David Li

Wand 是一款以语音为先、感知指针的浏览器助手，它结合自然语音和手势，帮助你无缝浏览任何网站并与之交互。只需指向屏幕并说话——例如要求“播放这个视频”或“放大这里”——这个实时助手就能帮助你即时执行点击、搜索和命令，完全无需触碰鼠标或键盘。

Image 7: https://storage.googleapis.com/gweb-cloudblog-publish/images/maxresdefault-3_EsDTsNv.max-1300x1300.jpg

* *

最佳技术执行与智能体架构奖得主：[JohnKeats.AI](https://devpost.com/software/johnkeats-ai)

作者：Matthew Keats

JohnKeats.AI 是一款以语音为先的情感伴侣，旨在积极倾听并为用户提供空间，而不是急于提供解决方案。通过处理音高、语速和语调等细微的语音线索，它能实时自然地回应用户的情绪状态，提供一种深度反思且富有同理心的对话体验。

Image 8: https://storage.googleapis.com/gweb-cloudblog-publish/images/maxresdefault-4_DmxDSNY.max-1300x1300.jpg

* *

最佳创新与思想领导力奖得主：[Rayan Memory](https://devpost.com/software/rayan-memory)

作者：Yusuf Elnady

Rayan Memory 致力于解决普遍存在的遗忘问题，它将你的日常所学转化为一个完全可探索的 3D“记忆宫殿”。一个后台智能体会被动监听现实世界中的音频，将重要想法提取为实体物件，让你可以漫步于主题虚拟房间，并与一个专门的 AI 伙伴对话，轻松找回你的确切记忆。

Image 9: https://storage.googleapis.com/gweb-cloudblog-publish/images/maxresdefault-5_rlthVRd.max-1300x1300.jpg

* *

荣誉提名：[NagarDrishti](https://devpost.com/software/nagardrishti)

作者：Nikita Dongre 和 Omkar Dongre

NagarDrishti 致力于解决危险的路况问题，它允许市民在驾驶时使用免提语音助手安全地报告坑洼和积水。这些实时报告会即时填充到一个交互式仪表板中，城市官员可以使用自然语言轻松识别危险热点区域并管理关键维修。

Image 10: https://storage.googleapis.com/gweb-cloudblog-publish/images/maxresdefault-6_LY4Wry4.max-1300x1300.jpg

* *

荣誉提名：[Ekaette](https://geminiliveagentchallenge.devpost.com/submissions/970955-ekaette)

作者：Bassey John

Ekaette 彻底改变了客户服务，它用一个可在实时电话通话和短信中运行的多模态对话式 AI 助手，取代了令人沮丧的等待队列。客户可以通过标准电话线与助手自然交谈，同时无缝地通过 WhatsApp 分享照片、查看产品选项或完成支付。

Image 11: https://storage.googleapis.com/gweb-cloudblog-publish/images/maxresdefault-7_WUG5wng.max-1300x1300.jpg

* *

荣誉提名：[VibeCat](https://geminiliveagentchallenge.devpost.com/submissions/949057-vibecat)

作者：Sejun Kim 和 Michael Chang

VibeCat 是一款主动式的 macOS 桌面伴侣，它会持续观察你的屏幕，理解你的上下文，并在你提问之前就建议有用的操作。它不会等待命令，而是主动发声——例如主动提出修复缺失的代码行或执行终端命令——并且只在获得你的许可后才完成任务。

Image 12: https://storage.googleapis.com/gweb-cloudblog-publish/images/maxresdefault-8_FyBBOlB.max-1300x1300.jpg

* *

荣誉提名：[Call My Parts](https://geminiliveagentchallenge.devpost.com/submissions/945801-call-my-parts)

作者：Sugam Palav, Nikhil Lohar, Siddhant Panday, 和 Vishal Parekh

Call My Parts 自动化了寻找二手汽车零部件这一繁琐耗时的过程，它为你进行研究并联系供应商。用户只需说出他们需要的零件，AI 智能体就会自主搜索供应商网站，致电供应商确认价格和库存，并将最佳选项汇总成一个易于阅读的排名仪表板。

Image 13: https://storage.googleapis.com/gweb-cloudblog-publish/images/maxresdefault-9.max-1300x1300.jpg

* *

荣誉提名：[Relay](https://geminiliveagentchallenge.devpost.com/submissions/967879-relay-real-time-voice-vision-lab-tutor-for-electronics)

作者：Faith Ogundimu

Relay 是一款交互式 AI 实验助手，它利用你的网络摄像头实时观察并指导你的实体电子项目。它提供分步语音指导，帮助你搭建电路，在接线错误发生前及时捕捉，并通过内置的 3D 仿真沙盒和自适应测验来巩固你的技能。

Image 14: https://storage.googleapis.com/gweb-cloudblog-publish/images/maxresdefault-10.max-1300x1300.jpg

保持前进势头

从这些令人惊叹的项目中获得灵感了吗？开始构建，并通过我们最新的项目和活动与社区保持联系：

加入 Gemini Enterprise Agent Ready (GEAR)，该项目旨在帮助开发者和决策者构建和部署可用于生产环境的 AI 智能体。

回顾 Google Cloud Next 2026：我们刚刚圆满结束了精彩的 Google Cloud Next 大会！如果你未能亲临现场，或者只是想重温现场的热烈氛围，请查看我们的社交媒体和直播回顾，了解直接从展区带来的精彩开发者活动。

每周二锁定频道：想第一时间了解新工具、产品更新和即将到来的黑客松吗？每周二太平洋夏令时间上午 9 点 / 美国东部时间中午 12 点，加入我们的每周直播，获取关于 Google Cloud 一切的最新资讯。

再次祝贺所有的获奖者和参与者。我们迫不及待想看到你们的下一个作品！

发布在