[AINews] GPT-Realtime-2, -Translate, and -Whisper: new SOTA realtime voice APIs
![[AINews] GPT-Realtime-2, -Translate, and -Whisper: new SOTA realtime voice APIs](/api/img-proxy?url=https%3A%2F%2Fsubstackcdn.com%2Fimage%2Ffetch%2F%24s_!A0Wm!%2Cw_1456%2Cc_limit%2Cf_auto%2Cq_auto%3Agood%2Cfl_progressive%3Asteep%2Fhttps%253A%252F%252Fsubstack-post-media.s3.amazonaws.com%252Fpublic%252Fimages%252F9c9ffc6c-3f36-4f23-a2c3-34d5e64955aa_1014x918.png)
TL;DR · AI 摘要
OpenAI发布GPT-Realtime-2、-Translate和-Whisper三款SOTA实时语音API,支持多工具并行调用、128K上下文长度、可调节推理强度(从minimal到xhigh),显著提升语音交互的自然度与实用性。
核心要点
- GPT-Realtime-2实现+15.2% BBA得分提升,首次引入GPT-5级推理能力
- 支持128K上下文长度和多工具并行调用,增强复杂任务处理能力
- 提供5档推理强度控制(minimal到xhigh),开发者可灵活调整响应质量
结构提纲
按章节快速跳转。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- OpenAI 新语音API发布
- GPT-Realtime-2
- GPT-5级推理
- 128K上下文
- 多工具并行调用
- 5档推理强度
- GPT-Realtime-Translate
- 70+输入语言
- 13输出语言
- GPT-Realtime-Whisper
- 实时转录/字幕
金句 / Highlights
值得收藏与分享的关键句。
GPT-Realtime-2带来+15.2% BBA得分提升,是首个具备GPT-5级推理能力的语音模型。
支持128K上下文长度和多工具并行调用,使语音代理能完成更复杂的任务链。
开发者可从minimal到xhigh调节推理强度,实现性能与延迟的精细控制。
[AINews] GPT-Realtime-2、-Translate 和 -Whisper:新的 SOTA 实时语音 API

OpenAI 继续将 GPT-5 部署到各个地方
2026年5月8日
OpenAI 三个月前推出了 realtime-1.5,但相比而言只是小幅度提升,因为它仍基于 4o 的智能(Big Bench Audio 提升约 +5%)。你可以从今天发布的 realtime-2 中感受到明显的信心提升(BBA 提升 +15.2%),并且这一发布也获得了广泛好评:

正如博客文章所解释的那样,发布了三个模型,可以简化为“语音输入 → 语音输出”和“语音转语音”:

重点不在于“语音质量”,而在于可用性。简要总结:
- 前置短语:开发者可以启用主响应前的简短提示语,例如“让我查一下”或“我稍等一下去查看”。
- 并行工具调用与工具透明度:模型可以同时调用多个工具,并通过诸如“正在检查您的日历”或“现在查找该信息”这样的短语让这些操作可听见,帮助代理在完成任务的同时保持响应能力。
- 更强的恢复行为:模型能更优雅地恢复,比如说“我现在遇到困难了”,而不是失败或中断。
- 更长的上下文窗口:从 32K → 128K
- 更强的专业领域理解能力:模型更好地保留专业术语、专有名词、医疗术语及其他词汇。
- 更可控的语气和表达方式:模型可根据上下文更好地调整语气——平静、共情或积极向上。
- 可调节的推理强度:开发者现在可以选择从最小、低、中、高到超高推理级别,默认为低级别。
演示视频展示了当主要说话者在与他人交谈时,音频模型如何更好地调整自身表现,从而减少打断:
AI 新闻 2026年5月6日至5月7日。我们检查了12个 Reddit 子版块、544条推文,没有进一步的 Discord 讨论。AINews网站允许你搜索所有过往内容。提醒一下,AINews 现已成为 Latent Space 的一部分。你可以选择订阅或退订邮件频率!
- * *
**AI Twitter 回顾**
头条新闻:GPT-Realtime-2 和 OpenAI 语音 AI 评论
**发生了什么**
OpenAI 在 Realtime API 中推出了三种新的流式音频模型:GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper。 OpenAI 将 GPT-Realtime-2 定位为其“迄今为止最智能的语音模型”,带来了“类 GPT-5 的推理能力”,使实时语音代理能够听懂、推理、处理中断、使用工具,并在对话展开过程中维持更长时间的交流 @OpenAI。配套模型则专注于实时语音翻译和转录:GPT-Realtime-Translate 支持从 70 多种输入语言流式翻译成 13 种输出语言,而 GPT-Realtime-Whisper 则在语音产生时实时生成转录文本/字幕 @OpenAI, @OpenAIDevs。OpenAI 表示这些模型现已可在 Realtime API 中使用,而 ChatGPT 语音升级仍在等待中:“敬请期待,我们正在开发中” @OpenAI。Sam Altman 将此次发布描述为一种行为转变:用户越来越倾向于在需要“倾诉大量上下文”时使用语音与 AI 交互,同时 OpenAI 也在改进 ChatGPT 的语音功能 @sama。
**事实 vs 观点**
事实 / OpenAI 和评估者直接声明的内容
- 模型家族:GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisper 已于今日在 Realtime API 中上线 @OpenAIDevs。
(这是第 2/4 部分,请保持翻译风格一致)
- GPT-Realtime-2 功能: 专为生产环境语音代理设计的以推理为导向的原生语音到语音模型;支持工具使用/动作执行、中断恢复、更长对话,以及 OpenAI 所称的“类 GPT-5 推理”@OpenAI, @reach_vb。
- 上下文窗口: 社区和 OpenAI 开发者评论指出,GPT-Realtime-2 语音代理的上下文长度为 128K@reach_vb;Artificial Analysis 独立报告该上下文窗口从 32K 提升至 128K,最大输出 token 数为 32K@ArtificialAnlys。
- 转录功能: GPT-Realtime-Whisper 提供低延迟流式转录服务,适用于实时字幕、笔记和持续语音理解,集成于 Realtime API 中 @OpenAIDevs。
- 提示与控制: OpenAI 发布了语音提示指南,涵盖推理强度、开场白、工具行为、模糊音频处理、精确实体捕获以及长时间会话中的状态维护 @OpenAIDevs。
- 独立基准测试: Scale AI 报告称,GPT-Realtime-2 在其 Audio MultiChallenge S2S 排行榜中排名第一,指令保留率从 36.7% 提升至 70.8% APR(相比 GPT-Realtime-1.5),并在语音编辑和实时修复任务中表现优异 @ScaleAILabs。
- 独立基准测试: Artificial Analysis 报告在 Big Bench Audio 语音到语音推理任务中得分为 96.6%,在 Conversational Dynamics 基准测试中得分为 96.1%,高推理强度下首次音频响应平均时间为 2.33 秒,低推理强度下为 1.12 秒,且音频定价保持不变:输入 $1.15/小时,输出 $4.61/小时@ArtificialAnlys, @ArtificialAnlys。
- 推理强度控制: Artificial Analysis 报告称可调节推理级别:最小、低、中、高、超高,默认为 低@ArtificialAnlys。
- 企业/产品评估: Glean 表示,在内部对实时组织语音交互的评估中,GPT-Realtime-2 相比前代版本帮助性提升了 42.9%@glean。Genspark 称其 Call for Me Agent 已迁移到 GPT-Realtime-2,有效对话率提升 +26%,且掉线通话减少 @genspark_ai。
观点 / 解读 / 评论
- 对界面的怀疑态度:Will Depue 将音频类比为 VR——常令人兴奋,但历史上并未成为粘性强的界面;但他认为实时工具使用、边说话边推理、实时翻译等功能,正是能让音频界面最终起飞的关键能力@willdepue。
- 更广泛的用户体验乐观情绪:多位评论者认为语音对人类而言更加自然且带宽效率更高@BorisMPower,是迈向 Jarvis 式始终可用计算机代理的道路@willdepue,或最终被更高带宽的脑机接口(BCI)取代@iScienceLuvr。
- 竞争背景:Elon Musk 推动 Grok Voice 用于客户服务@elonmusk,凸显出实时语音支持/客户服务自动化已成为各实验室之间的竞争焦点。
**技术细节与基准数据**
GPT-Realtime-2
- 原生语音到语音 / 实时语音模型,通过 OpenAI 的 Realtime API 发布@OpenAI。
- 被定义为“类 GPT-5 推理”的语音代理@OpenAI。
- 设计目标是让代理能够:
- 在对话中进行推理,
- 使用工具/执行动作,
- 处理中断,
- 在用户修改或修正语音时恢复,
- 报告的上下文长度:128K tokens,较之前的 32K 显著提升@ArtificialAnlys。
- 报告的最大输出:32K tokens@ArtificialAnlys。
- Artificial Analysis 报告的输入类型:文本、音频和图像@ArtificialAnlys。
(这是第 3/4 部分,请保持翻译风格一致)
- 推理努力级别:最小、低、中、高、极高;默认为 低@ArtificialAnlys。
- 首次音频响应时间:
- 最小推理时为 1.12 秒,
- 高推理时为 2.33 秒 @ArtificialAnlys。
- 定价:
- 每小时音频输入 $1.15,
- 每小时音频输出 $4.61,
- 相较于前代模型未发生变化,据 Artificial Analysis 表示 @ArtificialAnlys。
- 对话功能:支持在主回复前添加简短开场白——例如“让我检查一下”——并在工具调用期间提供可听见的透明度提示——例如“正在查看您的日历”@ArtificialAnlys。
基准测试
- Scale AI Audio MultiChallenge S2S:GPT-Realtime-2 排名第一;指令保留率从 36.7% 提升至 70.8% APR(相比 GPT-Realtime-1.5);当用户实时修正语音时,语音编辑能力表现强劲 @ScaleAILabs。
- Artificial Analysis Big Bench Audio:GPT-Realtime-2 高配置版本得分 96.6%,报告称其与 Gemini 3.1 Flash Live Preview High 相当,并比此前最高结果高出约 ~13% @ArtificialAnlys。
- Justin Uberti 单独总结称,在 Big Bench Audio 上相较 GPT-Realtime-1.5 提升了 15 个百分点,接近饱和状态 @juberti。
- 对话动态 / 全双工基准子集:GPT-Realtime-2 最小配置版本得分为 96.1%,在暂停处理和轮次切换方面表现出色 @ArtificialAnlys。
GPT-Realtime-Translate
- 支持从 70 多种输入语言 实时流式翻译成 13 种输出语言@OpenAI。
- OpenAI 联合创始人 Greg Brockman 表示,实时语音到语音翻译自公司早期就一直是备受期待的应用,现在任何人都可以使用 API 构建该功能 @gdb。
- Vimeo 展示了无需预加载字幕的实时配音,展示了完全实时生成的翻译 @Vimeo。
- Junling Zhang 强调了新的实时翻译模型并鼓励开发者使用 API @jxnlco。
- Boris Power 称实时翻译“实际上非常出色”,并计划经常使用它 @BorisMPower。
GPT-Realtime-Whisper
- 实时流式转录,边说边生成文字,适用于实时字幕、笔记和语音理解 @OpenAI。
- Justin Uberti 描述它为“Whisper,但现在具备实时流式传输功能”,并更新了演示以使用新模型 @juberti。
- Uberti 还构建了一个延迟选择器,用于在实时打字演示中展示延迟与准确性的权衡 @juberti。
**产品集成与演示**
- Glean:上线了基于 GPT-Realtime-2 的实时语音功能,结合组织上下文;内部评估显示相较于旧版本 帮助性提升 42.9% @glean。
- Vimeo:使用 GPT-Realtime-Translate 演示实时配音,翻译内容完全实时生成且无预加载字幕 @Vimeo。
- Genspark:将其 Call for Me Agent 升级至 GPT-Realtime-2;Genspark Realtime Voice 即将推出;声称推理更清晰、指令遵循更紧密、有效对话率提升 26%,且掉线更少 @genspark_ai。
- Gradient Bang / game-agent 演示:Kyle Windland 表示 GPT-Realtime-2 是首个足够优秀的 OpenAI 语音到语音模型,可用于他那些执行“真实工作”的语音代理,展示了它作为复杂代理中的核心 AI,包含工具调用和子代理 @kwindla。
- 语音控制市场仪表盘:Levin Stanley 演示了 GPT-Realtime-2 如何通过意图控制界面——“聚焦苹果”,“过去 30 天表现如何?”,“返回”——他认为实时打断和推理改变了 UI 流程,从导航变为方向指引 @levinstanley。
- 实时演示:Justin Uberti 更新了
hello-realtime以适配 GPT-Realtime-2,并提供了电话演示号码 @juberti;Diego Cabezas 发布了一个快速的 GPT-Realtime-2 演示 @diegocabezas01;Ray Fernando 主持了一场“构建一个实时翻译器”的直播 @RayFernando1337。
- Reachy Mini / 机器人语音接口兴趣:Clement Delangue 询问谁会将新语音功能加入 Reachy Mini @ClementDelangue,此前他曾询问像 Gradium、Kyutai 和 ElevenLabs 这样的语音 AI 实验室谁能协助机器人语音场景 @ClementDelangue。
**为何这很重要**
发布标志着语音代理从“围绕聊天机器人的语音输入/输出包装”向全双工、工具使用、长上下文、推理型代理迈进。这一技术转变不仅仅是更好的自动语音识别(ASR)或文本转语音(TTS);它是在一个实时循环中结合了低延迟轮次切换、中断处理、更长的上下文记忆、工具调用透明度以及可调节的推理努力。这一点对客户支持、会议、无障碍访问、实时翻译、机器人、浏览器/计算机控制以及无需双手的工作流至关重要——在这些场景中,文字聊天过于缓慢或不自然。
最重要的工程启示是:语音应用现在必须被设计为有状态的实时系统,而不再是简单的提示-响应接口。OpenAI 的提示指南明确指出开发者应关注推理努力调整、前言设置、工具行为、音频不清时的恢复机制、实体捕获和长时间会话的状态管理 @OpenAIDevs。这表明语音代理的质量将越来越取决于架构设计:延迟预算、中断语义、工具调用用户体验、对话记忆和故障恢复能力——而不仅仅是模型本身的性能。
目前尚不确定的是分发方式。API 模型已经可用,但据 Simon Willison 观察 @simonw,ChatGPT 的语音模式尚未获得升级。如果 ChatGPT 语音功能最终也具备相同能力,其对消费者的影响可能会更大。在此之前,此次发布主要惠及正在构建专业实时代理的开发者和平台。
- * *
免费试读 7 天
订阅 Latent.Space 继续阅读本文,并享受 7 天免费访问完整文章存档。
上一篇 下一篇