T
traeai
登录
返回首页
Latent Space

[AINews] GPT-Realtime-2, -Translate, and -Whisper: new SOTA realtime voice APIs

8.7Score
[AINews] GPT-Realtime-2, -Translate, and -Whisper: new SOTA realtime voice APIs

TL;DR · AI 摘要

OpenAI发布GPT-Realtime-2、-Translate和-Whisper三款SOTA实时语音API,支持多工具并行调用、128K上下文长度、可调节推理强度(从minimal到xhigh),显著提升语音交互的自然度与实用性。

核心要点

  • GPT-Realtime-2实现+15.2% BBA得分提升,首次引入GPT-5级推理能力
  • 支持128K上下文长度和多工具并行调用,增强复杂任务处理能力
  • 提供5档推理强度控制(minimal到xhigh),开发者可灵活调整响应质量

结构提纲

按章节快速跳转。

  1. OpenAI发布三款新语音模型,标志着实时语音交互进入GPT-5级智能时代。

  2. 包括128K上下文、多工具并行调用、更强恢复机制和可控语气输出。

  3. 开发者可选择minimal到xhigh五档推理强度,默认为low,平衡性能与成本。

  4. GPT-Realtime-Translate支持70+语言流式翻译,Whisper提供实时字幕生成。

  5. 适用于客服、教育、医疗等需高自然度语音交互的行业场景。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • OpenAI 新语音API发布
    • GPT-Realtime-2
      • GPT-5级推理
      • 128K上下文
      • 多工具并行调用
      • 5档推理强度
    • GPT-Realtime-Translate
      • 70+输入语言
      • 13输出语言
    • GPT-Realtime-Whisper
      • 实时转录/字幕

金句 / Highlights

值得收藏与分享的关键句。

  • GPT-Realtime-2带来+15.2% BBA得分提升,是首个具备GPT-5级推理能力的语音模型。

    第 2 段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 支持128K上下文长度和多工具并行调用,使语音代理能完成更复杂的任务链。

    第 3 段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 开发者可从minimal到xhigh调节推理强度,实现性能与延迟的精细控制。

    第 4 段

    ⬇︎ 下载 PNG𝕏 分享到 X
#OpenAI#GPT-5#Realtime API#Voice AI#Speech Processing
打开原文

[AINews] GPT-Realtime-2、-Translate 和 -Whisper:新的 SOTA 实时语音 API

Image 1: Latent.Space

AINews:工作日汇总

OpenAI 继续将 GPT-5 部署到各个地方

2026年5月8日

OpenAI 三个月前推出了 realtime-1.5,但相比而言只是小幅度提升,因为它仍基于 4o 的智能(Big Bench Audio 提升约 +5%)。你可以从今天发布的 realtime-2 中感受到明显的信心提升(BBA 提升 +15.2%),并且这一发布也获得了广泛好评

Image 3

正如博客文章所解释的那样,发布了三个模型,可以简化为“语音输入 → 语音输出”和“语音转语音”:

Image 4

重点不在于“语音质量”,而在于可用性。简要总结:

  • 前置短语:开发者可以启用主响应前的简短提示语,例如“让我查一下”或“我稍等一下去查看”。
  • 并行工具调用与工具透明度:模型可以同时调用多个工具,并通过诸如“正在检查您的日历”或“现在查找该信息”这样的短语让这些操作可听见,帮助代理在完成任务的同时保持响应能力。
  • 更强的恢复行为:模型能更优雅地恢复,比如说“我现在遇到困难了”,而不是失败或中断。
  • 更长的上下文窗口:从 32K → 128K
  • 更强的专业领域理解能力:模型更好地保留专业术语、专有名词、医疗术语及其他词汇。
  • 更可控的语气和表达方式:模型可根据上下文更好地调整语气——平静、共情或积极向上。
  • 可调节的推理强度:开发者现在可以选择从最小、低、中、高到超高推理级别,默认为低级别。

演示视频展示了当主要说话者在与他人交谈时,音频模型如何更好地调整自身表现,从而减少打断:

AI 新闻 2026年5月6日至5月7日。我们检查了12个 Reddit 子版块、544条推文,没有进一步的 Discord 讨论。AINews网站允许你搜索所有过往内容。提醒一下,AINews 现已成为 Latent Space 的一部分。你可以选择订阅或退订邮件频率!

  • * *

**AI Twitter 回顾**

头条新闻:GPT-Realtime-2 和 OpenAI 语音 AI 评论

**发生了什么**

OpenAI 在 Realtime API 中推出了三种新的流式音频模型:GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper。 OpenAI 将 GPT-Realtime-2 定位为其“迄今为止最智能的语音模型”,带来了“类 GPT-5 的推理能力”,使实时语音代理能够听懂、推理、处理中断、使用工具,并在对话展开过程中维持更长时间的交流 @OpenAI。配套模型则专注于实时语音翻译和转录:GPT-Realtime-Translate 支持从 70 多种输入语言流式翻译成 13 种输出语言,而 GPT-Realtime-Whisper 则在语音产生时实时生成转录文本/字幕 @OpenAI, @OpenAIDevs。OpenAI 表示这些模型现已可在 Realtime API 中使用,而 ChatGPT 语音升级仍在等待中:“敬请期待,我们正在开发中” @OpenAI。Sam Altman 将此次发布描述为一种行为转变:用户越来越倾向于在需要“倾诉大量上下文”时使用语音与 AI 交互,同时 OpenAI 也在改进 ChatGPT 的语音功能 @sama

**事实 vs 观点**

事实 / OpenAI 和评估者直接声明的内容

  • 模型家族:GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisper 已于今日在 Realtime API 中上线 @OpenAIDevs

(这是第 2/4 部分,请保持翻译风格一致)

  • GPT-Realtime-2 功能: 专为生产环境语音代理设计的以推理为导向的原生语音到语音模型;支持工具使用/动作执行、中断恢复、更长对话,以及 OpenAI 所称的“类 GPT-5 推理”@OpenAI, @reach_vb
  • 上下文窗口: 社区和 OpenAI 开发者评论指出,GPT-Realtime-2 语音代理的上下文长度为 128K@reach_vb;Artificial Analysis 独立报告该上下文窗口从 32K 提升至 128K,最大输出 token 数为 32K@ArtificialAnlys
  • 翻译功能: GPT-Realtime-Translate 支持从 70+ 种输入语言 实时翻译成 13 种输出语言@OpenAI, @reach_vb
  • 转录功能: GPT-Realtime-Whisper 提供低延迟流式转录服务,适用于实时字幕、笔记和持续语音理解,集成于 Realtime API 中 @OpenAIDevs
  • 提示与控制: OpenAI 发布了语音提示指南,涵盖推理强度、开场白、工具行为、模糊音频处理、精确实体捕获以及长时间会话中的状态维护 @OpenAIDevs
  • 独立基准测试: Scale AI 报告称,GPT-Realtime-2 在其 Audio MultiChallenge S2S 排行榜中排名第一,指令保留率从 36.7% 提升至 70.8% APR(相比 GPT-Realtime-1.5),并在语音编辑和实时修复任务中表现优异 @ScaleAILabs
  • 独立基准测试: Artificial Analysis 报告在 Big Bench Audio 语音到语音推理任务中得分为 96.6%,在 Conversational Dynamics 基准测试中得分为 96.1%,高推理强度下首次音频响应平均时间为 2.33 秒,低推理强度下为 1.12 秒,且音频定价保持不变:输入 $1.15/小时,输出 $4.61/小时@ArtificialAnlys, @ArtificialAnlys
  • 推理强度控制: Artificial Analysis 报告称可调节推理级别:最小、低、中、高、超高,默认为 @ArtificialAnlys
  • 企业/产品评估: Glean 表示,在内部对实时组织语音交互的评估中,GPT-Realtime-2 相比前代版本帮助性提升了 42.9%@glean。Genspark 称其 Call for Me Agent 已迁移到 GPT-Realtime-2,有效对话率提升 +26%,且掉线通话减少 @genspark_ai

观点 / 解读 / 评论

  • 支持者形容此次发布是语音代理领域的“重大进步”@sama,“真正的实时胜利”@reach_vb,也是首个足以用于“复杂语音代理真实工作”的语音到语音模型@kwindla
  • 更谨慎的观点:Simon Willison 指出,此公告并不意味着 ChatGPT 的语音模式已经升级;ChatGPT 的升级“听起来”即将到来@simonw, @simonw
  • 对界面的怀疑态度:Will Depue 将音频类比为 VR——常令人兴奋,但历史上并未成为粘性强的界面;但他认为实时工具使用、边说话边推理、实时翻译等功能,正是能让音频界面最终起飞的关键能力@willdepue
  • 更广泛的用户体验乐观情绪:多位评论者认为语音对人类而言更加自然且带宽效率更高@BorisMPower,是迈向 Jarvis 式始终可用计算机代理的道路@willdepue,或最终被更高带宽的脑机接口(BCI)取代@iScienceLuvr
  • 竞争背景:Elon Musk 推动 Grok Voice 用于客户服务@elonmusk,凸显出实时语音支持/客户服务自动化已成为各实验室之间的竞争焦点。

**技术细节与基准数据**

GPT-Realtime-2

  • 原生语音到语音 / 实时语音模型,通过 OpenAI 的 Realtime API 发布@OpenAI
  • 被定义为“类 GPT-5 推理”的语音代理@OpenAI
  • 设计目标是让代理能够:
  • 在对话中进行推理,
  • 使用工具/执行动作,
  • 处理中断,
  • 在用户修改或修正语音时恢复,
  • 报告的上下文长度:128K tokens,较之前的 32K 显著提升@ArtificialAnlys
  • Artificial Analysis 报告的输入类型:文本、音频和图像@ArtificialAnlys

(这是第 3/4 部分,请保持翻译风格一致)

  • 推理努力级别:最小、低、中、高、极高;默认为 @ArtificialAnlys
  • 首次音频响应时间:
  • 最小推理时为 1.12 秒
  • 定价:
  • 每小时音频输入 $1.15
  • 每小时音频输出 $4.61
  • 相较于前代模型未发生变化,据 Artificial Analysis 表示 @ArtificialAnlys
  • 对话功能:支持在主回复前添加简短开场白——例如“让我检查一下”——并在工具调用期间提供可听见的透明度提示——例如“正在查看您的日历”@ArtificialAnlys

基准测试

  • Scale AI Audio MultiChallenge S2S:GPT-Realtime-2 排名第一;指令保留率从 36.7% 提升至 70.8% APR(相比 GPT-Realtime-1.5);当用户实时修正语音时,语音编辑能力表现强劲 @ScaleAILabs
  • Artificial Analysis Big Bench Audio:GPT-Realtime-2 高配置版本得分 96.6%,报告称其与 Gemini 3.1 Flash Live Preview High 相当,并比此前最高结果高出约 ~13% @ArtificialAnlys
  • Justin Uberti 单独总结称,在 Big Bench Audio 上相较 GPT-Realtime-1.5 提升了 15 个百分点,接近饱和状态 @juberti
  • 对话动态 / 全双工基准子集:GPT-Realtime-2 最小配置版本得分为 96.1%,在暂停处理和轮次切换方面表现出色 @ArtificialAnlys

GPT-Realtime-Translate

  • 支持从 70 多种输入语言 实时流式翻译成 13 种输出语言@OpenAI
  • OpenAI 联合创始人 Greg Brockman 表示,实时语音到语音翻译自公司早期就一直是备受期待的应用,现在任何人都可以使用 API 构建该功能 @gdb
  • Vimeo 展示了无需预加载字幕的实时配音,展示了完全实时生成的翻译 @Vimeo
  • Junling Zhang 强调了新的实时翻译模型并鼓励开发者使用 API @jxnlco
  • Boris Power 称实时翻译“实际上非常出色”,并计划经常使用它 @BorisMPower

GPT-Realtime-Whisper

  • 实时流式转录,边说边生成文字,适用于实时字幕、笔记和语音理解 @OpenAI
  • Justin Uberti 描述它为“Whisper,但现在具备实时流式传输功能”,并更新了演示以使用新模型 @juberti
  • Uberti 还构建了一个延迟选择器,用于在实时打字演示中展示延迟与准确性的权衡 @juberti

**产品集成与演示**

  • Glean:上线了基于 GPT-Realtime-2 的实时语音功能,结合组织上下文;内部评估显示相较于旧版本 帮助性提升 42.9% @glean
  • Vimeo:使用 GPT-Realtime-Translate 演示实时配音,翻译内容完全实时生成且无预加载字幕 @Vimeo
  • Genspark:将其 Call for Me Agent 升级至 GPT-Realtime-2;Genspark Realtime Voice 即将推出;声称推理更清晰、指令遵循更紧密、有效对话率提升 26%,且掉线更少 @genspark_ai
  • Gradient Bang / game-agent 演示:Kyle Windland 表示 GPT-Realtime-2 是首个足够优秀的 OpenAI 语音到语音模型,可用于他那些执行“真实工作”的语音代理,展示了它作为复杂代理中的核心 AI,包含工具调用和子代理 @kwindla
  • 语音控制市场仪表盘:Levin Stanley 演示了 GPT-Realtime-2 如何通过意图控制界面——“聚焦苹果”,“过去 30 天表现如何?”,“返回”——他认为实时打断和推理改变了 UI 流程,从导航变为方向指引 @levinstanley
  • 实时演示:Justin Uberti 更新了 hello-realtime 以适配 GPT-Realtime-2,并提供了电话演示号码 @juberti;Diego Cabezas 发布了一个快速的 GPT-Realtime-2 演示 @diegocabezas01;Ray Fernando 主持了一场“构建一个实时翻译器”的直播 @RayFernando1337
  • Reachy Mini / 机器人语音接口兴趣:Clement Delangue 询问谁会将新语音功能加入 Reachy Mini @ClementDelangue,此前他曾询问像 Gradium、Kyutai 和 ElevenLabs 这样的语音 AI 实验室谁能协助机器人语音场景 @ClementDelangue

**为何这很重要**

发布标志着语音代理从“围绕聊天机器人的语音输入/输出包装”向全双工、工具使用、长上下文、推理型代理迈进。这一技术转变不仅仅是更好的自动语音识别(ASR)或文本转语音(TTS);它是在一个实时循环中结合了低延迟轮次切换、中断处理、更长的上下文记忆、工具调用透明度以及可调节的推理努力。这一点对客户支持、会议、无障碍访问、实时翻译、机器人、浏览器/计算机控制以及无需双手的工作流至关重要——在这些场景中,文字聊天过于缓慢或不自然。

最重要的工程启示是:语音应用现在必须被设计为有状态的实时系统,而不再是简单的提示-响应接口。OpenAI 的提示指南明确指出开发者应关注推理努力调整、前言设置、工具行为、音频不清时的恢复机制、实体捕获和长时间会话的状态管理 @OpenAIDevs。这表明语音代理的质量将越来越取决于架构设计:延迟预算、中断语义、工具调用用户体验、对话记忆和故障恢复能力——而不仅仅是模型本身的性能。

目前尚不确定的是分发方式。API 模型已经可用,但据 Simon Willison 观察 @simonw,ChatGPT 的语音模式尚未获得升级。如果 ChatGPT 语音功能最终也具备相同能力,其对消费者的影响可能会更大。在此之前,此次发布主要惠及正在构建专业实时代理的开发者和平台。

  • * *

免费试读 7 天

订阅 Latent.Space 继续阅读本文,并享受 7 天免费访问完整文章存档。

开始试用

已经是付费订阅用户?**登录**

上一篇 下一篇

AI 可能会生成不准确的信息,请核实重要内容