T
traeai
登录
返回首页
Google DeepMind Blog

Fluid, natural voice translation with Gemini 3.5 Live Translate

8.5Score

TL;DR · AI 摘要

Gemini 3.5 Live Translate 实现了 70 种语言的实时语音翻译,支持多语言无缝交流。

核心要点

  • Gemini 3.5 Live Translate 支持 70 种语言的实时语音翻译。
  • 该模型可无缝集成到 Google Translate、Google Meet 等产品中。
  • Grab 等公司正在测试该技术,用于实现近实时的多语言通信。

结构提纲

按章节快速跳转。

  1. 介绍了 Google 在语音翻译领域的二十年发展历程。

  2. 介绍了 Gemini 3.5 Live Translate 的功能和优势,包括支持 70 种语言和实时翻译。

  3. 介绍了 Gemini 3.5 Live Translate 在 Google TranslateGoogle Meet 等产品中的应用。

  4. 介绍了 Gemini Live API 和 Google AI Studio 的公开预览功能。

  5. 介绍了 Grab 等公司正在测试该技术,用于实现近实时的多语言通信。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • Gemini 3.5 Live Translate
    • 功能
      • 支持 70+ 语言
      • 实时语音翻译
      • 自然语音输出
    • 应用场景
      • Google Translate
      • Google Meet
      • Grab 语音通话

金句 / Highlights

值得收藏与分享的关键句。

#Gemini#语音翻译#AI#Google#实时翻译
打开原文

Gemini 3.5 实时翻译现已发布

通过 Gemini 3.5 实时翻译实现流畅自然的语音翻译

2026年6月9日

·

分享

x.com

Facebook

LinkedIn

邮件

复制链接

Gemini 3.5 实时翻译是我们最新的音频模型,支持超过70种语言的近实时语音到语音翻译。

Anuda Weerasinghe

产品经理

Tony Lu

高级软件工程师

您的浏览器不支持音频元素。

聆听文章

此内容由 Google AI 生成。生成式 AI 是实验性功能。

[[持续时间]] 分钟

语音

速度

0.75X

1X

1.5X

2X

文章文本

二十年前,Google 的翻译功能始于我们的一项开创性机器学习实验,旨在将语言科学转化为人类连接的魔法。这项实验已经取得了长足进展,每月通过我们的产品为数十亿用户翻译超过一万亿个单词。

今天,我们迈出了下一步,发布了 Gemini 3.5 实时翻译,这是我们的最新音频模型,用于实时语音到语音翻译。

该模型可自动检测70多种语言,并生成流畅自然的翻译语音,保留说话者的语调、节奏和音高。与需要等待说话者说完才做出回应的逐句系统不同,Gemini 3.5 实时翻译持续生成语音,在等待上下文以提高质量和立即翻译以保持与说话者同步之间取得平衡。它提供流畅的音频,避免尴尬的停顿,并在整个会话过程中仅落后说话者几秒钟。

Gemini 3.5 实时翻译今天开始在 Google 产品中逐步推出:

  • 通过 Gemini Live API 和 Google AI Studio 向开发者提供公开预览版
  • 通过 Google Meet 向企业用户提供私有预览版,本月开始推出
  • 通过 Android 和 iOS 上的 Google Translate 向所有人推出

使用 Gemini 3.5 实时翻译构建

Gemini 3.5 实时翻译在语音流式传输时进行处理,实现跨语言更无缝的连接。该模型可以处理多语言输入,无需手动配置设置。同时,其抗噪声能力确保应用程序能够处理嘈杂和不可预测的环境。您可以利用其功能,帮助实现多语言通话、会议、课程、广播等的实时翻译。

观看 Gemini Live API 的实际应用,实现配音和同时多语言翻译。深入了解演示或 Gemini Cookbook 中的更多示例代码。

通过使用 Gemini Live API,Agora、Fishjam、LiveKit、Pipecat 和 Vision Agents 等开发者平台使开发者能够轻松构建和部署语音翻译应用。这些集成处理了复杂的实时媒体流传输基础设施,使开发者能够专注于用户体验。

我们的合作伙伴 Grab 正在测试该模型,以实现在司机和乘客接载时进行近实时的多语言通信。这些用户每月通过 Grab 进行超过1000万次语音通话。

阅读早期评价

除了 Grab,CJ ENM、LiveKit 等公司也对 Gemini 3.5 实时翻译给出了积极反馈,强调其令人印象深刻的翻译质量、准确性和低延迟:

在您的视频会议中体验 Gemini 3.5 实时翻译

Google Meet 中的语音翻译将很快使用 Gemini 3.5 实时翻译,从而提升体验:

  • 提供 70 多种语言的支持,相比之前的限制仅支持五种语言有所提升,
  • 实现一次会议中跨 2000 多种语言组合的对话,从之前仅支持英译其他语言扩展而来,
  • 更新界面,提供即时访问语音翻译的功能。

我们将在本月开始,为部分选择的 Google Workspace 企业客户推出此更新的私密预览版,随后在今年晚些时候进行更广泛的推广。

在 Android 或 iOS 的 Google Translate 应用中获取 3.5 Live Translate 功能

该模型也将在全球范围内的 Android 和 iOS 的 Google Translate 应用中推出。在使用 Live Translate 功能时,只需连接任意一副耳机,即可体验更加流畅的翻译,该翻译能够跨 70 多种语言同步说话者的语调。

对于 Android 用户,我们还开始推出一种新的“聆听模式”,配合 3.5 Live Translate 功能,用户可以直接通过手机的听筒听到翻译内容。只需像接听普通电话一样将手机贴在耳边,翻译后的音频便会直接传输到您的耳朵中。这种新体验在您想快速听到翻译内容而不被他人听见,且手边没有耳机时会特别有用。

使用新的聆听模式,用户可以直接通过手机的听筒听到西班牙语导览的近实时英文翻译。

使用 SynthID 进行水印标记

我们模型生成的所有音频都会使用 SynthID 进行水印标记。这种不可察觉的水印直接嵌入音频输出中,确保人工智能生成的内容可以被检测,从而有助于防止虚假信息的传播。有关我们安全和责任方面的做法详情,请参阅模型卡片。

完成。只需再完成一步。

请查看您的收件箱以确认您的订阅。

您已订阅我们的电子报。

您也可以使用不同的电子邮件地址进行订阅。

发布于:

AI 可能会生成不准确的信息,请核实重要内容