T
traeai
登录
返回首页
Google Cloud Blog

Gemini Live Agent挑战赛:公布获奖者与亮点

8.5Score
Gemini Live Agent挑战赛:公布获奖者与亮点

TL;DR · AI 摘要

Google Cloud宣布Gemini Live Agent挑战赛结果,展示创新的AI代理。

核心要点

  • 11,878名参与者和1,536个项目来自151个国家。
  • ORION是用于机器人手术的语音驱动手术助手。
  • Drone-copilot使用户能通过自然语言实时控制无人机。

结构提纲

按章节快速跳转。

  1. Google Cloud宣布Gemini Live Agent挑战赛结果,展示创新的AI代理。

  2. 鼓励开发者突破传统文本框模式,构建下一代AI代理。

  3. 全球11,878名参与者提交了1,536个项目,覆盖151个国家。

  4. 包括手术辅助、无人机控制和多模态叙事等类别。

  5. 部分获奖者在Google Cloud Next 2026上分享了他们的开发经验。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • Gemini Live Agent Challenge
    • 挑战目标
      • 突破传统文本框模式
      • 构建下一代AI代理
    • 参赛情况
      • 11,878参与者
      • 1,536项目
      • 151个国家
    • 获奖项目
      • ORION - 手术辅助
      • Drone-copilot - 无人机控制
      • Sankofa - 多模态叙事

金句 / Highlights

值得收藏与分享的关键句。

#AI代理#Google Cloud
打开原文

标题:Gemini 实时智能体挑战赛获奖者与亮点

URL 来源:https://cloud.google.com/blog/topics/developers-practitioners/winners-and-highlights-of-the-gemini-live-agent-challenge/

发布时间:2026-05-15

Gemini 实时智能体挑战赛已圆满落幕!我们向全球开发者发起挑战,要求他们突破传统的“文本框”范式,构建下一代 AI 智能体。从我们的最初公告,到最终汇集了来自 151 个国家的 11,878 名参与者和 1,536 个提交项目,其成果堪称壮观。

本次挑战的使命是,利用 Gemini Live API、智能体开发套件(ADK)以及 Google Cloud 强大的基础设施,无缝整合多模态能力——构建能够帮助你实时观看、聆听、说话和创作的智能体。参赛者在三个不同类别中突破了交互式 AI 的边界:实时智能体、创意叙事者和 UI 导航器。

祝贺获得最高奖项的构建者们!这些获胜团队将技术精度与大胆的想象力相结合,彻底重新定义了用户与智能体互动和体验的方式。其中两位杰出的开发者甚至在 Google Cloud Next 2026 大会上获得了现场表彰。以下是他们的经历分享,以及完整的获奖智能体名单。

在 Google Cloud Next ‘26 上庆祝我们的类别获奖者

类别获奖者 Jeremiah Somoine 和 Bryen Param 受邀参加了在拉斯维加斯举行的 Google Cloud Next 2026 大会,并与更广泛的开发者社区分享了他们的经验和见解。两位获奖者均在展会现场的开发者剧场进行了闪电演讲,并在 GDE 和认证休息室的创作者工作室舱内接受了独家采访。

在活动期间,Bryen 讨论了 drone-copilot 背后的核心灵感。他解释说,他的项目源于“如果模型能与现实世界互动会怎样?”这个问题,展示了多模态能力如何弥合 AI 与物理环境之间的鸿沟。

图片 1: https://storage.googleapis.com/gweb-cloudblog-publish/images/bryen.max-2200x2200.jpg

Jeremiah 目前是一名大学生,他回顾了 Sankofa 背后的开发过程,并指出“对技术限制的最佳回应是创造性的解决方案”。当被问及他对其他希望构建下一代 AI 应用的学生有何建议时,他强调要抓住任何机会亲自动手实践技术。“最好的学习方式就是动手去做,”他说,并鼓励有抱负的开发者直接投入并开始构建。

图片 2: https://storage.googleapis.com/gweb-cloudblog-publish/images/jeremiah_edited.max-2200x2200.jpg

获奖者

大奖得主:[ORION - 手术室智能协调节点](https://devpost.com/software/orion-operating-room-intelligent-orchestration-node)

作者:Aditya Shukla

ORION,即手术室智能协调节点,是一个用于机器人手术的语音导向外科副驾驶。外科医生可以自然地说话,并立即获得答案、显示屏上的实时数据以及实时视觉辅助——所有这些都无需中断无菌操作。

图片 3: https://storage.googleapis.com/gweb-cloudblog-publish/images/maxresdefault_0lhMev0.max-1300x1300.jpg
视频 25
  • * *

实时智能体类别获奖者:[drone-copilot](https://devpost.com/software/drone-copilot)

作者:Bryen Param

Drone-copilot 通过实现与无人机的自然、实时对话,而非使用操纵杆或复杂菜单,彻底改变了用户与硬件的交互方式。用户只需通过说话,即可指示无人机导航、执行自主视觉检查或描述其周围环境,同时无人机会实时进行语音响应并确认其行动。

图片 4: https://storage.googleapis.com/gweb-cloudblog-publish/images/maxresdefault_C6lpyed.max-1300x1300.jpg
视频 26
  • * *

创意叙事者类别获奖者:[Sankofa](https://devpost.com/software/sankofa-y47f9p)

作者:Jeremiah Somoine

Sankofa 扮演了一个多模态 AI “格里奥”(griot)的角色——格里奥是西非传统的说书人——它将零散的家庭历史转化为深度沉浸式的叙事。仅基于用户提供的少量细节,它就能将丰富的语音叙述、水彩图像和环境音景编织成一个历史故事,并允许用户与这位说书人进行实时语音对话,以进一步探索他们的根源。

图片 5: https://storage.googleapis.com/gweb-cloudblog-publish/images/maxresdefault-1_1ApjCQc.max-1300x1300.jpg
视频 27
  • * *

UI 导航器类别获奖者:[Moonwalk](https://devpost.com/software/moonwalk-tojsay)

作者:Enaiho Uwas Paul 和 Aman Kumar Sah

Moonwalk 是一款对话式、免提的桌面助手,它可以帮助用户仅凭语音就能直观地操作电脑并完成复杂任务。通过记住个人偏好和过往互动,它就像一个智能副驾驶,能够无缝控制你的鼠标和键盘来执行日常工作流——比如预订航班或管理电子表格——而你只需坐好并开口说话。

Image 6: https://storage.googleapis.com/gweb-cloudblog-publish/images/maxresdefault-2_djltYYE.max-1300x1300.jpg
Video 28
  • * *

最佳多模态集成与用户体验奖得主:[Wand](https://devpost.com/software/wand-a-live-agent-that-sees-browses-and-clicks-with-you)

作者:David Li

Wand 是一款以语音为先、感知指针的浏览器助手,它结合自然语音和手势,帮助你无缝浏览任何网站并与之交互。只需指向屏幕并说话——例如要求“播放这个视频”或“放大这里”——这个实时助手就能帮助你即时执行点击、搜索和命令,完全无需触碰鼠标或键盘。

Image 7: https://storage.googleapis.com/gweb-cloudblog-publish/images/maxresdefault-3_EsDTsNv.max-1300x1300.jpg
Video 29
  • * *

最佳技术执行与智能体架构奖得主:[JohnKeats.AI](https://devpost.com/software/johnkeats-ai)

作者:Matthew Keats

JohnKeats.AI 是一款以语音为先的情感伴侣,旨在积极倾听并为用户提供空间,而不是急于提供解决方案。通过处理音高、语速和语调等细微的语音线索,它能实时自然地回应用户的情绪状态,提供一种深度反思且富有同理心的对话体验。

Image 8: https://storage.googleapis.com/gweb-cloudblog-publish/images/maxresdefault-4_DmxDSNY.max-1300x1300.jpg
Video 30
  • * *

最佳创新与思想领导力奖得主:[Rayan Memory](https://devpost.com/software/rayan-memory)

作者:Yusuf Elnady

Rayan Memory 致力于解决普遍存在的遗忘问题,它将你的日常所学转化为一个完全可探索的 3D“记忆宫殿”。一个后台智能体会被动监听现实世界中的音频,将重要想法提取为实体物件,让你可以漫步于主题虚拟房间,并与一个专门的 AI 伙伴对话,轻松找回你的确切记忆。

Image 9: https://storage.googleapis.com/gweb-cloudblog-publish/images/maxresdefault-5_rlthVRd.max-1300x1300.jpg
Video 31
  • * *

荣誉提名:[NagarDrishti](https://devpost.com/software/nagardrishti)

作者:Nikita Dongre 和 Omkar Dongre

NagarDrishti 致力于解决危险的路况问题,它允许市民在驾驶时使用免提语音助手安全地报告坑洼和积水。这些实时报告会即时填充到一个交互式仪表板中,城市官员可以使用自然语言轻松识别危险热点区域并管理关键维修。

Image 10: https://storage.googleapis.com/gweb-cloudblog-publish/images/maxresdefault-6_LY4Wry4.max-1300x1300.jpg
Video 32
  • * *

荣誉提名:[Ekaette](https://geminiliveagentchallenge.devpost.com/submissions/970955-ekaette)

作者:Bassey John

Ekaette 彻底改变了客户服务,它用一个可在实时电话通话和短信中运行的多模态对话式 AI 助手,取代了令人沮丧的等待队列。客户可以通过标准电话线与助手自然交谈,同时无缝地通过 WhatsApp 分享照片、查看产品选项或完成支付。

Image 11: https://storage.googleapis.com/gweb-cloudblog-publish/images/maxresdefault-7_WUG5wng.max-1300x1300.jpg
Video 33
  • * *

荣誉提名:[VibeCat](https://geminiliveagentchallenge.devpost.com/submissions/949057-vibecat)

作者:Sejun Kim 和 Michael Chang

VibeCat 是一款主动式的 macOS 桌面伴侣,它会持续观察你的屏幕,理解你的上下文,并在你提问之前就建议有用的操作。它不会等待命令,而是主动发声——例如主动提出修复缺失的代码行或执行终端命令——并且只在获得你的许可后才完成任务。

Image 12: https://storage.googleapis.com/gweb-cloudblog-publish/images/maxresdefault-8_FyBBOlB.max-1300x1300.jpg
Video 34
  • * *

荣誉提名:[Call My Parts](https://geminiliveagentchallenge.devpost.com/submissions/945801-call-my-parts)

作者:Sugam Palav, Nikhil Lohar, Siddhant Panday, 和 Vishal Parekh

Call My Parts 自动化了寻找二手汽车零部件这一繁琐耗时的过程,它为你进行研究并联系供应商。用户只需说出他们需要的零件,AI 智能体就会自主搜索供应商网站,致电供应商确认价格和库存,并将最佳选项汇总成一个易于阅读的排名仪表板。

Image 13: https://storage.googleapis.com/gweb-cloudblog-publish/images/maxresdefault-9.max-1300x1300.jpg
Video 35
  • * *

荣誉提名:[Relay](https://geminiliveagentchallenge.devpost.com/submissions/967879-relay-real-time-voice-vision-lab-tutor-for-electronics)

作者:Faith Ogundimu

Relay 是一款交互式 AI 实验助手,它利用你的网络摄像头实时观察并指导你的实体电子项目。它提供分步语音指导,帮助你搭建电路,在接线错误发生前及时捕捉,并通过内置的 3D 仿真沙盒和自适应测验来巩固你的技能。

Image 14: https://storage.googleapis.com/gweb-cloudblog-publish/images/maxresdefault-10.max-1300x1300.jpg
Video 36

保持前进势头

从这些令人惊叹的项目中获得灵感了吗?开始构建,并通过我们最新的项目和活动与社区保持联系:

  • 回顾 Google Cloud Next 2026:我们刚刚圆满结束了精彩的 Google Cloud Next 大会!如果你未能亲临现场,或者只是想重温现场的热烈氛围,请查看我们的 社交媒体直播 回顾,了解直接从展区带来的精彩开发者活动。
  • 每周二锁定频道:想第一时间了解新工具、产品更新和即将到来的黑客松吗?每周二太平洋夏令时间上午 9 点 / 美国东部时间中午 12 点,加入我们的 每周直播,获取关于 Google Cloud 一切的最新资讯。

再次祝贺所有的获奖者和参与者。我们迫不及待想看到你们的下一个作品!

发布在

AI 可能会生成不准确的信息,请核实重要内容