[AINews] GPT-Realtime-2, -Translate, and -Whisper: new SOTA realtime voice APIs

Latent Space

Latent Space2026年5月8日

[AINews] GPT-Realtime-2, -Translate, and -Whisper: new SOTA realtime voice APIs

8.7内容质量

TL;DR · AI 摘要

OpenAI发布GPT-Realtime-2、-Translate和-Whisper三款SOTA实时语音API，支持多工具并行调用、128K上下文长度、可调节推理强度（从minimal到xhigh），显著提升语音交互的自然度与实用性。

核心要点

GPT-Realtime-2实现+15.2% BBA得分提升，首次引入GPT-5级推理能力
支持128K上下文长度和多工具并行调用，增强复杂任务处理能力
提供5档推理强度控制（minimal到xhigh），开发者可灵活调整响应质量

结构提纲

按章节快速跳转。

§引言：语音AI的新里程碑
OpenAI发布三款新语音模型，标志着实时语音交互进入GPT-5级智能时代。
·核心功能升级
包括128K上下文、多工具并行调用、更强恢复机制和可控语气输出。
›推理强度可调
开发者可选择minimal到xhigh五档推理强度，默认为low，平衡性能与成本。
·翻译与转录专用模型
GPT-Realtime-Translate支持70+语言流式翻译，Whisper提供实时字幕生成。
§应用场景与影响
适用于客服、教育、医疗等需高自然度语音交互的行业场景。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

OpenAI 新语音API发布
- GPT-Realtime-2
  - GPT-5级推理
  - 128K上下文
  - 多工具并行调用
  - 5档推理强度
- GPT-Realtime-Translate
  - 70+输入语言
  - 13输出语言
- GPT-Realtime-Whisper
  - 实时转录/字幕

金句 / Highlights

值得收藏与分享的关键句。

GPT-Realtime-2带来+15.2% BBA得分提升，是首个具备GPT-5级推理能力的语音模型。
— 第 2 段
⬇︎ 下载 PNG 𝕏 分享到 X
支持128K上下文长度和多工具并行调用，使语音代理能完成更复杂的任务链。
— 第 3 段
⬇︎ 下载 PNG 𝕏 分享到 X
开发者可从minimal到xhigh调节推理强度，实现性能与延迟的精细控制。
— 第 4 段
⬇︎ 下载 PNG 𝕏 分享到 X

#OpenAI#GPT-5#Realtime API#Voice AI#Speech Processing

打开原文

[AINews] GPT-Realtime-2、-Translate 和 -Whisper：新的 SOTA 实时语音 API

AINews：工作日汇总

OpenAI 继续将 GPT-5 部署到各个地方

2026年5月8日

OpenAI 三个月前推出了 realtime-1.5，但相比而言只是小幅度提升，因为它仍基于 4o 的智能（Big Bench Audio 提升约 +5%）。你可以从今天发布的 realtime-2 中感受到明显的信心提升（BBA 提升 +15.2%），并且这一发布也获得了广泛好评：

正如博客文章所解释的那样，发布了三个模型，可以简化为“语音输入 → 语音输出”和“语音转语音”：

重点不在于“语音质量”，而在于可用性。简要总结：

前置短语：开发者可以启用主响应前的简短提示语，例如“让我查一下”或“我稍等一下去查看”。

并行工具调用与工具透明度：模型可以同时调用多个工具，并通过诸如“正在检查您的日历”或“现在查找该信息”这样的短语让这些操作可听见，帮助代理在完成任务的同时保持响应能力。

更强的恢复行为：模型能更优雅地恢复，比如说“我现在遇到困难了”，而不是失败或中断。

更长的上下文窗口：从 32K → 128K

更强的专业领域理解能力：模型更好地保留专业术语、专有名词、医疗术语及其他词汇。

更可控的语气和表达方式：模型可根据上下文更好地调整语气——平静、共情或积极向上。

可调节的推理强度：开发者现在可以选择从最小、低、中、高到超高推理级别，默认为低级别。

演示视频展示了当主要说话者在与他人交谈时，音频模型如何更好地调整自身表现，从而减少打断：

AI 新闻 2026年5月6日至5月7日。我们检查了12个 Reddit 子版块、544条推文，没有进一步的 Discord 讨论。AINews网站允许你搜索所有过往内容。提醒一下，AINews 现已成为 Latent Space 的一部分。你可以选择订阅或退订邮件频率！

* *

AI Twitter 回顾

头条新闻：GPT-Realtime-2 和 OpenAI 语音 AI 评论

发生了什么

OpenAI 在 Realtime API 中推出了三种新的流式音频模型：GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper。 OpenAI 将 GPT-Realtime-2 定位为其“迄今为止最智能的语音模型”，带来了“类 GPT-5 的推理能力”，使实时语音代理能够听懂、推理、处理中断、使用工具，并在对话展开过程中维持更长时间的交流 @OpenAI。配套模型则专注于实时语音翻译和转录：GPT-Realtime-Translate 支持从 70 多种输入语言流式翻译成 13 种输出语言，而 GPT-Realtime-Whisper 则在语音产生时实时生成转录文本/字幕 @OpenAI, @OpenAIDevs。OpenAI 表示这些模型现已可在 Realtime API 中使用，而 ChatGPT 语音升级仍在等待中：“敬请期待，我们正在开发中” @OpenAI。Sam Altman 将此次发布描述为一种行为转变：用户越来越倾向于在需要“倾诉大量上下文”时使用语音与 AI 交互，同时 OpenAI 也在改进 ChatGPT 的语音功能 @sama。

事实 vs 观点

事实 / OpenAI 和评估者直接声明的内容

模型家族：GPT-Realtime-2、GPT-Realtime-Translate、GPT-Realtime-Whisper 已于今日在 Realtime API 中上线 @OpenAIDevs。

（这是第 2/4 部分，请保持翻译风格一致）

GPT-Realtime-2 功能： 专为生产环境语音代理设计的以推理为导向的原生语音到语音模型；支持工具使用/动作执行、中断恢复、更长对话，以及 OpenAI 所称的“类 GPT-5 推理”@OpenAI, @reach_vb。

上下文窗口： 社区和 OpenAI 开发者评论指出，GPT-Realtime-2 语音代理的上下文长度为 128K@reach_vb；Artificial Analysis 独立报告该上下文窗口从 32K 提升至 128K，最大输出 token 数为 32K@ArtificialAnlys。

翻译功能： GPT-Realtime-Translate 支持从 70+ 种输入语言 实时翻译成 13 种输出语言@OpenAI, @reach_vb。

转录功能： GPT-Realtime-Whisper 提供低延迟流式转录服务，适用于实时字幕、笔记和持续语音理解，集成于 Realtime API 中 @OpenAIDevs。

提示与控制： OpenAI 发布了语音提示指南，涵盖推理强度、开场白、工具行为、模糊音频处理、精确实体捕获以及长时间会话中的状态维护 @OpenAIDevs。

独立基准测试： Scale AI 报告称，GPT-Realtime-2 在其 Audio MultiChallenge S2S 排行榜中排名第一，指令保留率从 36.7% 提升至 70.8% APR（相比 GPT-Realtime-1.5），并在语音编辑和实时修复任务中表现优异 @ScaleAILabs。

独立基准测试： Artificial Analysis 报告在 Big Bench Audio 语音到语音推理任务中得分为 96.6%，在 Conversational Dynamics 基准测试中得分为 96.1%，高推理强度下首次音频响应平均时间为 2.33 秒，低推理强度下为 1.12 秒，且音频定价保持不变：输入 $1.15/小时，输出 $4.61/小时@ArtificialAnlys, @ArtificialAnlys。

推理强度控制： Artificial Analysis 报告称可调节推理级别：最小、低、中、高、超高，默认为低@ArtificialAnlys。

企业/产品评估： Glean 表示，在内部对实时组织语音交互的评估中，GPT-Realtime-2 相比前代版本帮助性提升了 42.9%@glean。Genspark 称其 Call for Me Agent 已迁移到 GPT-Realtime-2，有效对话率提升 +26%，且掉线通话减少 @genspark_ai。

观点 / 解读 / 评论

支持者形容此次发布是语音代理领域的“重大进步”@sama，“真正的实时胜利”@reach_vb，也是首个足以用于“复杂语音代理真实工作”的语音到语音模型@kwindla。

更谨慎的观点：Simon Willison 指出，此公告并不意味着 ChatGPT 的语音模式已经升级；ChatGPT 的升级“听起来”即将到来@simonw, @simonw。

对界面的怀疑态度：Will Depue 将音频类比为 VR——常令人兴奋，但历史上并未成为粘性强的界面；但他认为实时工具使用、边说话边推理、实时翻译等功能，正是能让音频界面最终起飞的关键能力@willdepue。

更广泛的用户体验乐观情绪：多位评论者认为语音对人类而言更加自然且带宽效率更高@BorisMPower，是迈向 Jarvis 式始终可用计算机代理的道路@willdepue，或最终被更高带宽的脑机接口（BCI）取代@iScienceLuvr。

竞争背景：Elon Musk 推动 Grok Voice 用于客户服务@elonmusk，凸显出实时语音支持/客户服务自动化已成为各实验室之间的竞争焦点。

技术细节与基准数据

GPT-Realtime-2

原生语音到语音 / 实时语音模型，通过 OpenAI 的 Realtime API 发布@OpenAI。

被定义为“类 GPT-5 推理”的语音代理@OpenAI。

设计目标是让代理能够：

在对话中进行推理，

使用工具/执行动作，

处理中断，

在用户修改或修正语音时恢复，

通过扩展上下文维持更长时间的会话@OpenAI, @reach_vb。

报告的上下文长度：128K tokens，较之前的 32K 显著提升@ArtificialAnlys。

报告的最大输出：32K tokens@ArtificialAnlys。

Artificial Analysis 报告的输入类型：文本、音频和图像@ArtificialAnlys。

（这是第 3/4 部分，请保持翻译风格一致）

推理努力级别：最小、低、中、高、极高；默认为低@ArtificialAnlys。

首次音频响应时间：

最小推理时为 1.12 秒，

高推理时为 2.33 秒 @ArtificialAnlys。

定价：

每小时音频输入 $1.15，

每小时音频输出 $4.61，

相较于前代模型未发生变化，据 Artificial Analysis 表示 @ArtificialAnlys。

对话功能：支持在主回复前添加简短开场白——例如“让我检查一下”——并在工具调用期间提供可听见的透明度提示——例如“正在查看您的日历”@ArtificialAnlys。

基准测试

Scale AI Audio MultiChallenge S2S：GPT-Realtime-2 排名第一；指令保留率从 36.7% 提升至 70.8% APR（相比 GPT-Realtime-1.5）；当用户实时修正语音时，语音编辑能力表现强劲 @ScaleAILabs。

Artificial Analysis Big Bench Audio：GPT-Realtime-2 高配置版本得分 96.6%，报告称其与 Gemini 3.1 Flash Live Preview High 相当，并比此前最高结果高出约 ~13% @ArtificialAnlys。

Justin Uberti 单独总结称，在 Big Bench Audio 上相较 GPT-Realtime-1.5 提升了 15 个百分点，接近饱和状态 @juberti。

对话动态 / 全双工基准子集：GPT-Realtime-2 最小配置版本得分为 96.1%，在暂停处理和轮次切换方面表现出色 @ArtificialAnlys。

GPT-Realtime-Translate

支持从 70 多种输入语言 实时流式翻译成 13 种输出语言@OpenAI。

OpenAI 联合创始人 Greg Brockman 表示，实时语音到语音翻译自公司早期就一直是备受期待的应用，现在任何人都可以使用 API 构建该功能 @gdb。

Vimeo 展示了无需预加载字幕的实时配音，展示了完全实时生成的翻译 @Vimeo。

Junling Zhang 强调了新的实时翻译模型并鼓励开发者使用 API @jxnlco。

Boris Power 称实时翻译“实际上非常出色”，并计划经常使用它 @BorisMPower。

GPT-Realtime-Whisper

实时流式转录，边说边生成文字，适用于实时字幕、笔记和语音理解 @OpenAI。

Justin Uberti 描述它为“Whisper，但现在具备实时流式传输功能”，并更新了演示以使用新模型 @juberti。

Uberti 还构建了一个延迟选择器，用于在实时打字演示中展示延迟与准确性的权衡 @juberti。

产品集成与演示

Glean：上线了基于 GPT-Realtime-2 的实时语音功能，结合组织上下文；内部评估显示相较于旧版本 帮助性提升 42.9% @glean。

Vimeo：使用 GPT-Realtime-Translate 演示实时配音，翻译内容完全实时生成且无预加载字幕 @Vimeo。

Genspark：将其 Call for Me Agent 升级至 GPT-Realtime-2；Genspark Realtime Voice 即将推出；声称推理更清晰、指令遵循更紧密、有效对话率提升 26%，且掉线更少 @genspark_ai。

Gradient Bang / game-agent 演示：Kyle Windland 表示 GPT-Realtime-2 是首个足够优秀的 OpenAI 语音到语音模型，可用于他那些执行“真实工作”的语音代理，展示了它作为复杂代理中的核心 AI，包含工具调用和子代理 @kwindla。

语音控制市场仪表盘：Levin Stanley 演示了 GPT-Realtime-2 如何通过意图控制界面——“聚焦苹果”，“过去 30 天表现如何？”，“返回”——他认为实时打断和推理改变了 UI 流程，从导航变为方向指引 @levinstanley。

实时演示：Justin Uberti 更新了 hello-realtime 以适配 GPT-Realtime-2，并提供了电话演示号码 @juberti；Diego Cabezas 发布了一个快速的 GPT-Realtime-2 演示 @diegocabezas01；Ray Fernando 主持了一场“构建一个实时翻译器”的直播 @RayFernando1337。

Reachy Mini / 机器人语音接口兴趣：Clement Delangue 询问谁会将新语音功能加入 Reachy Mini @ClementDelangue，此前他曾询问像 Gradium、Kyutai 和 ElevenLabs 这样的语音 AI 实验室谁能协助机器人语音场景 @ClementDelangue。

为何这很重要

发布标志着语音代理从“围绕聊天机器人的语音输入/输出包装”向全双工、工具使用、长上下文、推理型代理迈进。这一技术转变不仅仅是更好的自动语音识别（ASR）或文本转语音（TTS）；它是在一个实时循环中结合了低延迟轮次切换、中断处理、更长的上下文记忆、工具调用透明度以及可调节的推理努力。这一点对客户支持、会议、无障碍访问、实时翻译、机器人、浏览器/计算机控制以及无需双手的工作流至关重要——在这些场景中，文字聊天过于缓慢或不自然。

最重要的工程启示是：语音应用现在必须被设计为有状态的实时系统，而不再是简单的提示-响应接口。OpenAI 的提示指南明确指出开发者应关注推理努力调整、前言设置、工具行为、音频不清时的恢复机制、实体捕获和长时间会话的状态管理 @OpenAIDevs。这表明语音代理的质量将越来越取决于架构设计：延迟预算、中断语义、工具调用用户体验、对话记忆和故障恢复能力——而不仅仅是模型本身的性能。

目前尚不确定的是分发方式。API 模型已经可用，但据 Simon Willison 观察 @simonw，ChatGPT 的语音模式尚未获得升级。如果 ChatGPT 语音功能最终也具备相同能力，其对消费者的影响可能会更大。在此之前，此次发布主要惠及正在构建专业实时代理的开发者和平台。

* *

免费试读 7 天

订阅 Latent.Space 继续阅读本文，并享受 7 天免费访问完整文章存档。

开始试用

已经是付费订阅用户？**登录**

[AINews] GPT-Realtime-2, -Translate, and -Whisper: new SOTA realtime voice APIs

TL;DR · AI 摘要

核心要点

结构提纲

思维导图

金句 / Highlights

[AINews] GPT-Realtime-2、-Translate 和 -Whisper：新的 SOTA 实时语音 API

OpenAI 继续将 GPT-5 部署到各个地方

**AI Twitter 回顾**

**发生了什么**

**事实 vs 观点**

**技术细节与基准数据**

**产品集成与演示**

**为何这很重要**

免费试读 7 天

AI Twitter 回顾

发生了什么

事实 vs 观点

技术细节与基准数据

产品集成与演示

为何这很重要