在 Codex/Claude Code 等 Coding Agents 领域,文字是主要的输入输出方式;而在更广泛的通用 Agents 领域,特别是陪伴、实时交互等 Agents 方面,实时语音交互非常重要
构建Voice Agent需结合ASR、VOD、TTS、LLM及WebRTC,Agora Skills可快速集成实现低延迟实时语音交互,响应仅1秒。
入选理由:使用Agora Skills可在2-3分钟内安装并集成RTC、RTM等组件,支持快速开发Voice Agent
概念
也叫:Text-to-Speech
将文本转换为语音的技术。
最近变化
2026-06-05 · Fish Audio 支持零录音生成语音,适合 vlog 制作。
TTS 被反复提及时,通常意味着它正在影响产品路线、开发者工作流或 AI 产业判断。这个页面把分散材料合并成一个可持续更新的观察入口。
在 Codex/Claude Code 等 Coding Agents 领域,文字是主要的输入输出方式;而在更广泛的通用 Agents 领域,特别是陪伴、实时交互等 Agents 方面,实时语音交互非...
meng shao(@shao__meng) · 8.5 分
超600种语言,一个模型全搞定! 小米开源 OmniVoice 多语言语音克隆 TTS
小米技术 · 8.5 分
网易有道「子曰4」全模态大模型来了,权重全量开源 这次「子曰4」不仅支持了多模态:图像/视频/语音全输入,27B可以本地化部署,尤其在学习场景表现优异 更值得一提的是这个 TTS 引擎独立开源,3...
Yangyi(@Yangyixxxx) · 7.5 分
已收录 7 篇与「TTS」相关的 AI 资讯和分析。
构建Voice Agent需结合ASR、VOD、TTS、LLM及WebRTC,Agora Skills可快速集成实现低延迟实时语音交互,响应仅1秒。
入选理由:使用Agora Skills可在2-3分钟内安装并集成RTC、RTM等组件,支持快速开发Voice Agent
小米开源 OmniVoice 模型支持超600种语言的多语言语音克隆,显著降低 TTS 系统开发成本。
入选理由:OmniVoice 支持超过600种语言,覆盖全球99%以上人口的语言需求。
网易有道「子曰4」全模态大模型开源,支持图像/视频/语音输入,27B参数可本地部署,尤其适用于学习场景,TTS引擎独立开源,支持14种语言跨语种生成。
入选理由:「子曰4」支持多模态输入,27B参数可本地化部署。
牛津大学博士后Kevin Lin开源了视频翻译工具Violin,支持多语言翻译与视频对话功能。
入选理由:Violin整合ASR、LLM翻译和TTS技术
Fish Audio 推出新功能,支持生成逼真语音,但文章内容信息量不足。
入选理由:Fish Audio 推出语音生成功能
Fish Audio 提供无需录音的 AI 语音生成服务,适用于 vlog 制作。
入选理由:Fish Audio 支持零录音生成语音,适合 vlog 制作。
Fish Audio 发布了基于 TTS 技术的音频作品《电梯女士的梦》。
入选理由:Fish Audio 推出了新的语音合成作品《电梯女士的梦》。
与「TTS」经常一起出现的 AI 术语。
💡 想追踪「TTS」的长期趋势?去 实体雷达 · TTS 查看详细分析和跨材料问答。