Advancing voice intelligence with new models in the API
OpenAI introduces three real-time audio models to enhance voice applications.
入选理由:GPT-Realtime-2 能处理复杂请求并自然延续对话。
模型
用于实时语音转录的 GPT 模型。
已跟踪 7 条高相关材料
最近变化
2026-05-27 · Codex 使用 GPT Realtime Whisper 实现会议实时转录。
为什么值得关注
GPT Realtime Whisper 被反复提及时,通常意味着它正在影响产品路线、开发者工作流或 AI 产业判断。这个页面把分散材料合并成一个可持续更新的观察入口。
Advancing voice intelligence with new models in the API
OpenAI Blog · 9.2 分
OpenAI 推出三款实时语音模型,提升语音应用的智能化水平。
OpenAI 在 Realtime API 里上线了三款新语音模型:GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper,分别管对话...
宝玉(@dotey) · 8.9 分
OpenAI发布了三款新语音模型:GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper,显著提升了对话、翻译和实时转录能力。
Our new voice models are now available in the Realtime API: 🎙️ GPT-Realtime-2: Build production-re...
OpenAI(@OpenAI) · 7.8 分
OpenAI发布了三款新的语音模型:GPT-Realtime-2、GPT-Realtime-Translate和GPT-Realtime-Whisper,支持超过70种输入语言和13种输出语言的实时翻译。
已收录 7 条与 GPT Realtime Whisper 相关的内容,按评分排序。
OpenAI introduces three real-time audio models to enhance voice applications.
入选理由:GPT-Realtime-2 能处理复杂请求并自然延续对话。
OpenAI released three new voice models: GPT-Realtime-2, GPT-Realtime-Translate, and GPT-Realtime-Whisper, significantly enhancing dialogue, translation, and real-time transcription capabilities.
入选理由:GPT-Realtime-2在Big Bench Audio智能测试上从81.4%提升到96.6%,支持更复杂的任务编排。
OpenAI has released three new voice models: GPT-Realtime-2, GPT-Realtime-Translate, and GPT-Realtime-Whisper, supporting real-time translation across more than 70 input and 13 output languages.
入选理由:GPT-Realtime-2能够构建生产就绪的语音代理,处理复杂对话并保持流畅。
Codex 现实时间转录会议并实时回答问题,通过更新的 Codex Meeting Recorder 技能实现。
入选理由:Codex 使用 GPT Realtime Whisper 实现会议实时转录。
OpenAI has released GPT-Realtime-2, GPT-Realtime-Translate, and GPT-Realtime-Whisper, now available in the Realtime API.
入选理由:GPT-Realtime-2提升了实时处理能力。
GPT-Realtime-Whisper brings low-latency streaming transcription to the Realtime API, suitable for applications that need to continuously understand speech during interactions.
入选理由:GPT-Realtime-Whisper实现了低延迟的语音转文字服务。
GPT-Realtime-Whisper is a streaming speech-to-text model designed for real-time scenarios, supporting low-latency processing unlike the original Whisper which handles complete audio batches.
入选理由:新版模型支持流式处理,无需等待整段音频完成即可输出结果。