Gemini Live Agent挑战赛:公布获奖者与亮点

TL;DR · AI 摘要
Google Cloud宣布Gemini Live Agent挑战赛结果,展示创新的AI代理。
核心要点
- 11,878名参与者和1,536个项目来自151个国家。
- ORION是用于机器人手术的语音驱动手术助手。
- Drone-copilot使用户能通过自然语言实时控制无人机。
结构提纲
按章节快速跳转。
- §引言
Google Cloud宣布Gemini Live Agent挑战赛结果,展示创新的AI代理。
- ·挑战目标
鼓励开发者突破传统文本框模式,构建下一代AI代理。
- ·参赛数据
全球11,878名参与者提交了1,536个项目,覆盖151个国家。
- ·获奖项目
包括手术辅助、无人机控制和多模态叙事等类别。
部分获奖者在Google Cloud Next 2026上分享了他们的开发经验。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- Gemini Live Agent Challenge
- 挑战目标
- 突破传统文本框模式
- 构建下一代AI代理
- 参赛情况
- 11,878参与者
- 1,536项目
- 151个国家
- 获奖项目
- ORION - 手术辅助
- Drone-copilot - 无人机控制
- Sankofa - 多模态叙事
金句 / Highlights
值得收藏与分享的关键句。
11,878 participants and 1,536 submitted projects from 151 countries.
ORION is a voice-directed surgical co-pilot for robotic surgery.
Drone-copilot enables natural conversation with drones for real-time control.
标题:Gemini 实时智能体挑战赛获奖者与亮点
URL 来源:https://cloud.google.com/blog/topics/developers-practitioners/winners-and-highlights-of-the-gemini-live-agent-challenge/
发布时间:2026-05-15
Gemini 实时智能体挑战赛已圆满落幕!我们向全球开发者发起挑战,要求他们突破传统的“文本框”范式,构建下一代 AI 智能体。从我们的最初公告,到最终汇集了来自 151 个国家的 11,878 名参与者和 1,536 个提交项目,其成果堪称壮观。
本次挑战的使命是,利用 Gemini Live API、智能体开发套件(ADK)以及 Google Cloud 强大的基础设施,无缝整合多模态能力——构建能够帮助你实时观看、聆听、说话和创作的智能体。参赛者在三个不同类别中突破了交互式 AI 的边界:实时智能体、创意叙事者和 UI 导航器。
祝贺获得最高奖项的构建者们!这些获胜团队将技术精度与大胆的想象力相结合,彻底重新定义了用户与智能体互动和体验的方式。其中两位杰出的开发者甚至在 Google Cloud Next 2026 大会上获得了现场表彰。以下是他们的经历分享,以及完整的获奖智能体名单。
在 Google Cloud Next ‘26 上庆祝我们的类别获奖者
类别获奖者 Jeremiah Somoine 和 Bryen Param 受邀参加了在拉斯维加斯举行的 Google Cloud Next 2026 大会,并与更广泛的开发者社区分享了他们的经验和见解。两位获奖者均在展会现场的开发者剧场进行了闪电演讲,并在 GDE 和认证休息室的创作者工作室舱内接受了独家采访。
在活动期间,Bryen 讨论了 drone-copilot 背后的核心灵感。他解释说,他的项目源于“如果模型能与现实世界互动会怎样?”这个问题,展示了多模态能力如何弥合 AI 与物理环境之间的鸿沟。

Jeremiah 目前是一名大学生,他回顾了 Sankofa 背后的开发过程,并指出“对技术限制的最佳回应是创造性的解决方案”。当被问及他对其他希望构建下一代 AI 应用的学生有何建议时,他强调要抓住任何机会亲自动手实践技术。“最好的学习方式就是动手去做,”他说,并鼓励有抱负的开发者直接投入并开始构建。

获奖者
大奖得主:[ORION - 手术室智能协调节点](https://devpost.com/software/orion-operating-room-intelligent-orchestration-node)
作者:Aditya Shukla
ORION,即手术室智能协调节点,是一个用于机器人手术的语音导向外科副驾驶。外科医生可以自然地说话,并立即获得答案、显示屏上的实时数据以及实时视觉辅助——所有这些都无需中断无菌操作。

- * *
实时智能体类别获奖者:[drone-copilot](https://devpost.com/software/drone-copilot)
作者:Bryen Param
Drone-copilot 通过实现与无人机的自然、实时对话,而非使用操纵杆或复杂菜单,彻底改变了用户与硬件的交互方式。用户只需通过说话,即可指示无人机导航、执行自主视觉检查或描述其周围环境,同时无人机会实时进行语音响应并确认其行动。

- * *
创意叙事者类别获奖者:[Sankofa](https://devpost.com/software/sankofa-y47f9p)
作者:Jeremiah Somoine
Sankofa 扮演了一个多模态 AI “格里奥”(griot)的角色——格里奥是西非传统的说书人——它将零散的家庭历史转化为深度沉浸式的叙事。仅基于用户提供的少量细节,它就能将丰富的语音叙述、水彩图像和环境音景编织成一个历史故事,并允许用户与这位说书人进行实时语音对话,以进一步探索他们的根源。

- * *
UI 导航器类别获奖者:[Moonwalk](https://devpost.com/software/moonwalk-tojsay)
作者:Enaiho Uwas Paul 和 Aman Kumar Sah
Moonwalk 是一款对话式、免提的桌面助手,它可以帮助用户仅凭语音就能直观地操作电脑并完成复杂任务。通过记住个人偏好和过往互动,它就像一个智能副驾驶,能够无缝控制你的鼠标和键盘来执行日常工作流——比如预订航班或管理电子表格——而你只需坐好并开口说话。

- * *
最佳多模态集成与用户体验奖得主:[Wand](https://devpost.com/software/wand-a-live-agent-that-sees-browses-and-clicks-with-you)
作者:David Li
Wand 是一款以语音为先、感知指针的浏览器助手,它结合自然语音和手势,帮助你无缝浏览任何网站并与之交互。只需指向屏幕并说话——例如要求“播放这个视频”或“放大这里”——这个实时助手就能帮助你即时执行点击、搜索和命令,完全无需触碰鼠标或键盘。

- * *
最佳技术执行与智能体架构奖得主:[JohnKeats.AI](https://devpost.com/software/johnkeats-ai)
作者:Matthew Keats
JohnKeats.AI 是一款以语音为先的情感伴侣,旨在积极倾听并为用户提供空间,而不是急于提供解决方案。通过处理音高、语速和语调等细微的语音线索,它能实时自然地回应用户的情绪状态,提供一种深度反思且富有同理心的对话体验。

- * *
最佳创新与思想领导力奖得主:[Rayan Memory](https://devpost.com/software/rayan-memory)
作者:Yusuf Elnady
Rayan Memory 致力于解决普遍存在的遗忘问题,它将你的日常所学转化为一个完全可探索的 3D“记忆宫殿”。一个后台智能体会被动监听现实世界中的音频,将重要想法提取为实体物件,让你可以漫步于主题虚拟房间,并与一个专门的 AI 伙伴对话,轻松找回你的确切记忆。

- * *
荣誉提名:[NagarDrishti](https://devpost.com/software/nagardrishti)
作者:Nikita Dongre 和 Omkar Dongre
NagarDrishti 致力于解决危险的路况问题,它允许市民在驾驶时使用免提语音助手安全地报告坑洼和积水。这些实时报告会即时填充到一个交互式仪表板中,城市官员可以使用自然语言轻松识别危险热点区域并管理关键维修。

- * *
荣誉提名:[Ekaette](https://geminiliveagentchallenge.devpost.com/submissions/970955-ekaette)
作者:Bassey John
Ekaette 彻底改变了客户服务,它用一个可在实时电话通话和短信中运行的多模态对话式 AI 助手,取代了令人沮丧的等待队列。客户可以通过标准电话线与助手自然交谈,同时无缝地通过 WhatsApp 分享照片、查看产品选项或完成支付。

- * *
荣誉提名:[VibeCat](https://geminiliveagentchallenge.devpost.com/submissions/949057-vibecat)
作者:Sejun Kim 和 Michael Chang
VibeCat 是一款主动式的 macOS 桌面伴侣,它会持续观察你的屏幕,理解你的上下文,并在你提问之前就建议有用的操作。它不会等待命令,而是主动发声——例如主动提出修复缺失的代码行或执行终端命令——并且只在获得你的许可后才完成任务。

- * *
荣誉提名:[Call My Parts](https://geminiliveagentchallenge.devpost.com/submissions/945801-call-my-parts)
作者:Sugam Palav, Nikhil Lohar, Siddhant Panday, 和 Vishal Parekh
Call My Parts 自动化了寻找二手汽车零部件这一繁琐耗时的过程,它为你进行研究并联系供应商。用户只需说出他们需要的零件,AI 智能体就会自主搜索供应商网站,致电供应商确认价格和库存,并将最佳选项汇总成一个易于阅读的排名仪表板。

- * *
荣誉提名:[Relay](https://geminiliveagentchallenge.devpost.com/submissions/967879-relay-real-time-voice-vision-lab-tutor-for-electronics)
作者:Faith Ogundimu
Relay 是一款交互式 AI 实验助手,它利用你的网络摄像头实时观察并指导你的实体电子项目。它提供分步语音指导,帮助你搭建电路,在接线错误发生前及时捕捉,并通过内置的 3D 仿真沙盒和自适应测验来巩固你的技能。

保持前进势头
从这些令人惊叹的项目中获得灵感了吗?开始构建,并通过我们最新的项目和活动与社区保持联系:
- 加入 Gemini Enterprise Agent Ready (GEAR),该项目旨在帮助开发者和决策者构建和部署可用于生产环境的 AI 智能体。
- 回顾 Google Cloud Next 2026:我们刚刚圆满结束了精彩的 Google Cloud Next 大会!如果你未能亲临现场,或者只是想重温现场的热烈氛围,请查看我们的 社交媒体 和 直播 回顾,了解直接从展区带来的精彩开发者活动。
- 每周二锁定频道:想第一时间了解新工具、产品更新和即将到来的黑客松吗?每周二太平洋夏令时间上午 9 点 / 美国东部时间中午 12 点,加入我们的 每周直播,获取关于 Google Cloud 一切的最新资讯。
再次祝贺所有的获奖者和参与者。我们迫不及待想看到你们的下一个作品!
发布在