Can Voice Agents Handle Bilingual Customers? Benchmarking Frontier ASR on Code-Switched Speech

Hugging Face Blog

Hugging Face Blog2026年6月9日

Can Voice Agents Handle Bilingual Customers? Benchmarking Frontier ASR on Code-Switched Speech

8.5Score

TL;DR · AI 摘要

多语言语音助手在处理代码切换时表现差异显著，基准测试显示部分模型表现优于其他。

核心要点

代码切换对语音识别模型的性能影响因语言对和模型而异。
ElevenLabs Scribe V2、Gemini 3 Flash 和 Assembly AI Universal 3-Pro 在基准测试中表现最佳。
基准测试覆盖了西班牙语-英语、法语-英语等四组语言对。

结构提纲

按章节快速跳转。

§引言
全球超过一半的人口是多语者，代码切换在日常交流中很常见，但语音助手在处理代码切换时的研究较少。
§基准测试
基准测试覆盖了四组语言对，包括西班牙语-英语、法语-英语等，并使用了多种语音识别模型进行评估。
·数据管道
数据管道基于内部的IT支持和人力资源互动语料库，筛选出适合代码切换的语句进行测试。
§结果与发现
基准测试结果显示，不同模型在处理代码切换时的性能差异显著，部分模型表现优于其他。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

多语言语音助手基准测试
- 语言对
  - 西班牙语-英语
  - 法语-英语
  - 加拿大法语-英语
  - 德语-英语
- 模型表现
  - ElevenLabs Scribe V2
  - Gemini 3 Flash
  - Assembly AI Universal 3-Pro
- 评估指标
  - Word Error Rate (WER)
  - Semantic Word Error Rate (SWER)
  - Answer Error Rate (AER)

金句 / Highlights

值得收藏与分享的关键句。

基准测试覆盖了四组语言对：西班牙语-英语、法语-英语、加拿大法语-英语和德语-英语。
— 第 2 段
⬇︎ 下载 PNG 𝕏 分享到 X
ElevenLabs Scribe V2、Gemini 3 Flash 和 Assembly AI Universal 3-Pro 在基准测试中表现最佳。
— 第 3 段
⬇︎ 下载 PNG 𝕏 分享到 X
语音识别模型的转录错误会影响下游任务，因此在企业环境中准确转录尤为重要。
— 第 1 段
⬇︎ 下载 PNG 𝕏 分享到 X

#ASR#语音识别#多语言#基准测试

打开原文

语音代理能否处理双语客户？对代码切换语音的前沿ASR进行基准测试

返回文章

[0

[-1

企业

]

文章

发布于2026年6月9日

40

[

+34

Shama Gupta

shamagupta

关注

ServiceNow-AI

Lindsay Brin

lindsaybrin

Fanny Riols

FannyRiols

引言

全球超过一半的人口会说超过一种语言。对于许多双语使用者来说，代码切换——在句子中间无缝切换语言——是日常交流中的自然现象。无论是在闲聊、客服中心还是IT帮助台，说话者都会根据当时最自然的语言进行灵活调整。

尽管双语使用者在全球范围内普遍存在，但在企业环境中，关于语音代理如何处理代码切换语音的研究却很少。因此，当一位客户询问我们的语音代理在他们主要由双语客户组成的客户群体中，特别是在客户经常进行代码切换的情况下表现如何时，我们决定构建自己的基准和数据集来评估模型。我们专注于自动语音识别（ASR）——语音代理流程中的第一步，因为转录错误会传播到每个下游组件。在企业环境中，由于错误路由的工单或误解的政策问题会产生实际的运营后果，因此正确转录是语音代理流程中特别重要的一步。

我们的基准测试涵盖了对客户群体最相关的四种语言对：西班牙语-英语、法语-英语、加拿大法语-英语和德语-英语。它使用非英语语言作为矩阵框架，英语嵌入在不同长度中。数据涵盖了广泛的人力资源（HR）和IT服务管理（ITSM）场景，包括员工关于福利或工资单的咨询，以及密码重置、VPN访问或设备故障排除等支持请求。为了衡量各种模型的表现，我们报告了三个指标：词错误率（WER）、语义词错误率（SWER）和答案错误率（AER）。我们选择这些指标来捕捉（1）模型在转录中的精确准确性，以及（2）它们在下游任务中保留话语含义的能力。

我们通过我们的语音模型评估工具AU-Harness发布了我们的基准和数据。我们还提供了七种ASR系统的测试结果，包括一些大型音频语言模型（LALMs）、前沿ASR和开源ASR。我们的主要发现是，代码切换的成本取决于所测试的语言对和模型。ElevenLabs Scribe V2、Gemini 3 Flash和Assembly AI Universal 3-Pro在各项指标上表现最佳。

基准测试

数据管道

我们从一个内部的IT支持和人力资源互动语料库开始。为了创建每一条语言切换的语句，我们首先从英语和我们四种非英语语言中获取平行的用户语句，然后筛选出良好的语言切换候选语句。我们保留12到40个词之间的语句——足够短，以符合自然口语表达；足够长，以包含真正的语言切换机会。我们还排除那些实体占主导地位的语句——例如电子邮件、电话号码、ID或URL，这些内容使文本一半是英语，而不是出于双语选择。最后，我们要求至少有三个可切换的内容词——名词、动词或形容词，这些词不是实体或产品名称——以给生成模型提供足够的材料，从而生成有意义的语言切换版本。

从这里开始，我们测试了多种将语言组合在一起的策略，最终选择了一个简单的角色提示发送给一个大型语言模型（OpenAI/GPT-5）来生成语言切换的文本。然后，我们使用一个大型语言模型的口头化处理，将文本转换为口语形式，并使用ElevenLabs Multilingual V2合成音频。每一条语句随后都会由一位母语为矩阵语言的AI/NLP语言学家进行审核；被标记的语句将被排除或重新生成并再次审核。最终的数据集包含259条西班牙语-英语记录、298条法语-英语记录、188条加拿大法语-英语记录和173条德语-英语记录。

评估方法

我们为每种模型和每种语言对报告三个指标，这些指标旨在捕捉转录准确性、意义保留和下游任务表现：

词错误率（WER）。除了每种语言对的整体WER，我们还按每种语言分别报告WER。

语义词错误率（SWER）。该分数表示被判定为语义上有意义的错误率。我们的实现主要基于Pipecat的STT基准，并使用Gemma-4-31B作为我们的评委。

答案错误率（AER）。该指标直接捕捉转录错误是否传播到下游任务的失败。这是一个问答指标，遵循Bhushan等人的方法（IISc/ARTPARK，arXiv 2507.16456）。对于每一条语句，我们生成三个下游理解问题，并测量一个阅读ASR转录文本的LLM是否能正确回答它们。流程如下面的图表所示。

发现

我们评估了以下模型：

AssemblyAI / Universal 3-Pro

Deepgram / Nova 3 Multilang

ElevenLabs / Scribe V2

Google / Gemini 3 Flash

Mistral AI / Voxtral Small 24B-2507

Nvidia / Parakeet TDT 0.6b V3

OpenAI / Whisper Large V3 Turbo

A. 模型在我们的语言切换基准测试中表现如何？

我们从两个维度分析了错误：

词级准确性，通过WER进行衡量。WER是标准方法：它将真实转录与模型输出对齐，并量化它们之间的距离。虽然它简单且广泛使用，但它无法区分一个轻微的拼写差异和一个完全错误的词。

语义准确性，通过SWER和AER进行捕捉。SWER为我们提供了整体的语句级表现，尽管它反映的是评委模型的评估，而不是直接的下游测试。相比之下，AER是一个功能测试：对于每一条语句，三个理解问题衡量的是转录中是否保留了最关键的信息——案件编号、姓名、日期以及请求的原因。

模型在不同指标上的差异在它们之间出现分歧时最为显著。

WER 结果（数值越低越好）

ElevenLabs/Scribe V2 和 AssemblyAI/Universal-3 Pro 在语音识别准确性方面是排名前两位的模型。它们在西班牙语-英语上并列第一，而在其他所有语言对上，两者之间的差距为 0.02-0.13 个百分点，Scribe 在每种语言对上都略胜一筹。

Google/Gemini 3 Flash 在每种语言对上的表现紧随其后，但在加拿大法语-英语上表现最差，比 Scribe 落后 0.14 个百分点，比 AssemblyAI 落后 0.12 个百分点。Deepgram/Nova-3、Mistral/Voxtral 和 Nvidia/Parakeet 处于中游，每个模型在至少一个语言对上都有所领先。总体而言，Parakeet 是三个模型中最弱的，但在德语-英语上，它超越了 Nova-3 和 Voxtral。

OpenAI/Whisper Large V3 Turbo 排在最后，WER 范围从 0.16 到 0.61。虽然这是一个显著的下降，但这反映了 Whisper 的已知限制。在没有明确语言参数的情况下，当处理语言切换音频时，Whisper 默认将其翻译成英语，而不是进行转录，因此无法保留音频中所使用的语言。

SWER 和 AER 结果（数值越低越好）

语义指标讲述了一个与 WER 大致相似的故事，但有一些反转。

Scribe V2 依然保持第一位，SWER 和 AER 分数都非常低。

虽然 AssemblyAI 在 WER 上在不同语言对上排名前二，但 Gemini 3 Flash 在 AER 上始终优于它，使 AssemblyAI 下降到第三位。同样的模式也出现在 SWER 上，尽管 AssemblyAI 在西班牙语-英语上优于 Gemini。作为 LALM，Gemini 在语言理解和推理方面进行了优化，这可能使其在意义敏感的指标上具有优势，即使其原始转录准确性稍逊一筹。

Whisper 的表现也出现了类似的转变。虽然它仍然持续排名最后，但在语义指标下，其表现不佳的差距显著缩小，这是其倾向于将语言切换音频翻译成英语而不是转录的直接结果。

语义结果还揭示了 SWER 和 AER 之间显著的一致性。这两个指标在粒度上有所不同 —— SWER 聚合了所有单词的错误，而 AER 测量的是每句话中三个理解问题是否能正确回答 —— 所以在尺度上存在差异是预期的。值得注意的是，两个指标上的模型排名相对稳定。唯一明显的异常是 Deepgram Nova-3，它在 SWER 上处于中游，但在所有语言对上，它在 AER 上排名最后或倒数第二。差距在西班牙语-英语上最为明显：Nova-3 的整体语义错误率低于其在最关键细节上的错误率。

B. 与纯单语语音相比，语言切换会增加多少额外成本？

虽然这些结果清楚地展示了模型在语言切换语音上的相对表现，但它们并未揭示这些错误是源于转录本身的固有难度，还是语言切换引入的额外挑战。

为了隔离代码切换的成本，我们通过评估流程将每一条发言分别处理了三种音频：代码切换的音频、相同内容的单语矩阵语言音频，以及单语英语音频。对于每一条发言，我们测量了代码切换与单语条件之间的词错误率（WER）差异，并在基准数据集上汇总了这些差异值。以下是结果：

Scribe V2、Gemini 3 Flash 和 AssemblyAI 在整体上显示出最小的差异值，其中 Scribe V2 明显优于其自身的 L2 基线，表明其对双语输入具有真正的鲁棒性。

代码切换的影响也遵循一个直观的模式：表现优异的系统相对于单语基线仅产生较小的惩罚，而排名较低的模型退化更为显著，这表明代码切换主要揭示了模型在鲁棒性上的差异，而不是普遍地增加所有模型的难度。

在所有语言对中，出现了一致的结构性模式：绿色条（相对于英语的成本）几乎总是大于红色条（相对于 L2 的成本），这是可以预期的——对于大多数模型来说，L2 基线本身比英语更难，因此相对于它来衡量的净切换惩罚更小。最明显的例外是 Whisper，在德语-英语对中，它相对于英语的退化最大，达到 +0.85。它也是唯一一个在代码切换语音上表现优于单语 L2 的模型——这是默认进行翻译的直接结果，这完全绕过了矩阵语言。

C. 代码切换如何破坏语音识别系统？

既然我们已经知道代码切换可能导致模型出错，现在我们转向研究与这些错误相关的具体条件。为了解决这个问题，我们拟合了一个两部分的模型：

首先，我们使用逻辑回归来分析哪些变量与至少发生一次转录错误有关。

其次，在至少发生一次错误的条件下，我们使用普通最小二乘法（OLS）回归来研究哪些变量与错误的大小有关。

这种两部分的方法使我们能够区分导致错误更可能发生的因素，以及一旦发生错误后影响错误大小的因素。两个步骤都包括相同的预测变量：（1）发言中的语言切换次数，以及（2）发言的代码混合指数（CMI）——即相对于矩阵语言，从次要语言中提取的单词比例，参考 Gambäck 和 Das 的研究。我们还将发言长度作为控制变量，因为较长的发言提供了更多出错的机会。

#### 与转录错误相关的变量

从我们模型的第一部分中，我们发现发言中语言切换的次数是与是否发生转录错误最一致相关的预测变量。每次语言变化似乎都会为转录过程增加一次失败的机会。这种关系在法语-英语语言对中尤为显著，其中七种模型中有六种都表现出这种关系。其他预测变量——CMI 和发言长度——与错误发生的显著关系较少。

当问题转向错误的严重程度时，会出现不同的模式。与切换次数相比，CMI（代码混合指数）成为更强的预测因素。具体在德语-英语语言对中，七个模型中有四个显示出CMI与WER（词错误率）之间存在显著的正相关关系。这表明，一旦出现错误，其严重程度并非由说话人切换语言的频率决定，而是由混合的整体密度决定：话语越彻底地交织两种语言，产生的转录错误往往越大。

#### 对转录错误有贡献的代码切换话语部分

双因素模型解释了哪些因素与错误的发生和恶化有关。我们的最终实验研究了代码切换话语中哪些部分对这些错误的贡献尤为突出。为了测试错误是否在话语的英语部分和非英语部分之间分布不同，我们使用GPT-5对每个词进行语言标注，然后将每个转录错误归因于其发生的词的语言，计算每种语言的WER。下面的热图显示了结果。这一模式在所有模型和语言对中都是一致的：错误集中在话语的英语部分，而不是主体语言部分。这与直觉相悖——英语是这些模型在单语设置中通常处理得最好的语言。一种解释是，代码切换话语中的英语部分可能不成比例地包含技术术语或专有名词，这些术语更难转录。另一种解释是，嵌入语言部分无论嵌入的是哪种语言，都会创造一个具有挑战性的上下文：当模型进入一段非主体语言的说话时，它必须在话语中间适应不同的语音和词汇语境，从而在该段落中更有可能出现错误。

这一结果表明，在代码切换的ASR（自动语音识别）中，转录难度并不仅仅集中在切换点，而是更广泛地分布在嵌入语言的段落中。区分这种模式是由于英语段落的词汇特征、其作为嵌入语言的结构作用，还是当前模型在话语中适应能力有限，是未来研究的一个有前景的方向。

限制

有几个限制值得指出：

该基准是合成的。所有音频都是通过文本到语音（TTS）模型生成的，而不是由自然双语说话者录制的。因此，该基准可能无法完全捕捉真实代码切换语音的韵律和语音特征。

所有模型仅使用“自动语言检测”进行评估。一些系统提供了配置选项，如强制语言标记、多语言提示等，这些可能提高代码切换音频的转录质量。我们选择自动检测，因为它与系统在没有先验知识的情况下处理呼叫者使用哪种语言对的生产环境相匹配。

每种语言的WER（词错误率）排除了插入错误。我们的每种语言WER是通过将每个参考词标记为英语或非英语，并将错误归因于相应的类别来计算的。要确定插入错误的语言，需要额外的模型调用以识别插入词的语言，因此我们将其排除在每种语言的计算之外。但它们仍然被计入总WER中。

代码切换长期以来一直是语音模型的压力测试。我们的结果表明，对于最先进的自动语音识别（ASR）系统，代码切换正逐渐成为一种正常情况。

当企业谨慎选择其ASR系统时，双语客户可以自然地进行对话——根据对话需求在句子中间切换语言——而不会牺牲转录质量或下游任务的性能。在我们的基准测试中，顶级模型在处理代码切换语音时，与单语基准相比，其性能损失非常小，语义指标则更加令人鼓舞。

但情况并非普遍乐观。在做出生产决策之前，你必须对客户实际使用的语言进行基准测试——不同模型和语言对之间的性能差异很大，对西班牙语-英语使用者最佳的选择未必对德语-英语使用者也是最佳选择。

更多来自该作者的文章

EVA-Bench 数据 2.0：3 个领域，121 个工具，213 个场景

39

2026 年 6 月 4 日

vLLM V0 到 V1：在 RL 中的修正之前先确保正确性

11

2026 年 5 月 6 日

社区

tarabogavelli

2 天前

[2

非常出色的工作！

❤️

2

+

jashshah9

这是我们一直在多语言ASR世界中所缺失的东西！

查看翻译

➕

Nagesh-gupta

1 天前

此评论已被隐藏（标记为已解决）

编辑

预览

通过拖动到文本输入框、粘贴或

点击此处

上传图片、音频和视频。

点击此处上传图片

· 注册或登录以评论

+28