StepAudio 2.5 实时语音发布：副语言感知与人格化交互

AI HOT 精选

AI HOT 精选2026年5月23日

StepAudio 2.5 实时语音发布：副语言感知与人格化交互

7.5内容质量

TL;DR · AI 摘要

StepFun 发布 StepAudio 2.5 实时语音模型，具备副语言感知能力与个性化人格交互功能。

核心要点

StepAudio 2.5 支持实时语音合成，识别语气、节奏、停顿等副语言特征
提供 API 自定义人格功能，支持 10,000+ 原生人格模板组合
模型经过中英双语 RLHF 微调，在角色扮演压力测试下仍保持一致性

结构提纲

按章节快速跳转。

§StepAudio 2.5 发布
StepFun 推出 StepAudio 2.5 实时语音模型，具备高级副语言感知能力。
·副语言感知机制
模型能够识别语气、节奏、停顿、笑声等非语言表达，提升对话真实感。
·人格化交互功能
通过 API 可自定义角色人格、背景故事及语言风格，实现多样化个性表达。
›人格模板数量
拥有超过 10,000 种原生人格模板，支持百万级组合可能。
›预设人格体验
提供 5 个预设人格供用户即刻试用，降低使用门槛。
·多语言与微调
模型支持中英双语 RLHF 微调，确保角色一致性与稳定性。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

StepAudio 2.5 实时语音模型
- 副语言感知
  - 语气识别
  - 节奏分析
  - 微表情捕捉
- 人格化交互
  - API 自定义人格
  - 角色设定模板
  - 语言风格匹配
- 技术特性
  - 中英双语微调
  - RLHF 训练
  - 实时响应

金句 / Highlights

值得收藏与分享的关键句。

StepAudio 2.5 实时语音模型能捕捉语气、节奏、停顿甚至半笑等副语言特征。
— 第 1 段
⬇︎ 下载 PNG 𝕏 分享到 X
支持通过 API 定制角色人格、背景故事和语言风格，实现高度个性化交互。
— 第 1 段
⬇︎ 下载 PNG 𝕏 分享到 X
拥有超过 10,000 种原生人格模板，支持百万种组合可能性。
— 第 1 段
⬇︎ 下载 PNG 𝕏 分享到 X

#语音合成#AI语音#副语言感知#人格化交互#StepFun

打开原文

StepFun 在 X 上：「StepAudio 2.5 实时版已上线！

实时语音能够捕捉你真正想表达的内容——语调、语速、停顿、叹息，甚至是句子中间的半笑。

⚡ 顶级副语言感知能力 —— 能读取语调、节奏、微表情 ⚡ 通过 API 自定义人格 —— 性格、https://t.co/MaDeqskMEx」

/X

不要错过正在发生的事

StepFun

@StepFun_ai

StepAudio 2.5 实时版已上线！实时语音能捕捉你真正想表达的内容——语调、语速、停顿、叹息，甚至是句子中间的半笑。图像 2：⚡ 顶级副语言感知能力 —— 能读取语调、节奏、微表情图像 3：⚡ 通过 API 自定义人格 —— 性格、背景故事、小癖好、语言风格图像 4：⚡ 10,000+ 种原生人格 → 数百万种特性组合图像 5：⚡ 5 个预设人格可直接试用图像 6：⚡ 中英双语 RLHF 微调，在角色扮演压力测试下仍能保持角色一致性。试试看 → https://stepfun.com/studio/audio?t ab=voice-chat… 模型卡片：https://stepaudiollm.github.io/step-audio-2.5-realtime/…

晚上 9:45 · 2026 年 5 月 23 日

·

117 次观看

1

4

2