T
traeai
登录
返回首页
Hugging Face Blog

EVA-Bench数据2.0:3领域,121工具,213场景

8.5Score
EVA-Bench数据2.0:3领域,121工具,213场景

TL;DR · AI 摘要

EVA-Bench数据2.0扩展至3个领域,覆盖213个场景,提升评估全面性。

核心要点

  • 新增医疗HR服务领域,总场景数达213个(+4倍)
  • 集成OpenAI GPT-5.4等3个前沿模型进行验证
  • 提供Python代码示例实现数据集加载

结构提纲

按章节快速跳转。

  1. EVA-Bench从单领域扩展至航空、IT服务、医疗HR三大领域

  2. 包含121个工具和213个经过前沿模型验证的评估场景

  3. 提供Python代码示例和多语言扩展预览

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • EVA-Bench 2.0升级
    • 领域扩展
      • 航空客服
      • IT服务
      • 医疗HR
    • 场景数据
      • 213个验证场景
      • 121个工具覆盖
      • 4倍场景增长
    • 验证体系
      • GPT-5.4
      • Gemini 3.1 Pro
      • Claude Opus 4.6

金句 / Highlights

值得收藏与分享的关键句。

#AI基准测试#语音代理#Hugging Face
打开原文

EVA-Bench 数据 2.0:3 大类,121 种工具,213 种场景

截图 2026-06-03 下午4:59:53

引言

语音代理故障往往具有高度的专业性。一个系统在航班重新预订交易中完美处理字母数字确认码,可能在处理 HR 系统中的复杂政策时会遇到困难。不同的领域测试了代理适应不同词汇、工作流程复杂性和用户期望的能力。因此,在此次发布中,EVA-Bench 从单一的企业领域扩展到了三个:航空客户服务管理(CSM)、企业 IT 服务管理(ITSM)和医疗健康 HR 服务交付(HRSD)。它们共同涵盖了 213 种评估场景,涉及 121 种工具,比我们最初发布的版本增加了约四倍的场景覆盖范围。每个场景都经过了三个前沿模型(OpenAI GPT-5.4、Google Gemini 3.1 Pro 和 Anthropic Claude Opus 4.6)的验证,确保基准测试既具有挑战性又公平。所有数据集都是开源的,并可下载:

python
from datasets import load_dataset

# 航空客户服务管理(CSM)——50 种场景
airline = load_dataset("ServiceNow-AI/eva-bench", "airline", split="test")
# 企业 IT 服务管理(ITSM)——80 种场景
itsm = load_dataset("ServiceNow-AI/eva-bench", "itsm", split="test")
# 医疗健康 HR 服务交付(HRSD)——83 种场景
hrsd = load_dataset("ServiceNow-AI/eva-bench", "medical", split="test")

EVA-Bench 面向多个受众。如果您在评估语音代理,可以使用涵盖 35 多种不同工作流程的现实企业场景进行测试。如果您正在构建自己的评估数据集,本文详细描述了我们从头到尾生成和验证的过程,足以作为实用参考。我们将介绍每个领域的设计与生成过程,并深入探讨两个新添加的内容。此外,我们还预览了即将推出的多语言扩展,这将使基准测试的适用范围超越单一语言的企业部署。

![网站](https://servicenow.github.io/eva)![论文](https://huggingface.co/papers/2605.13841)![GitHub](https://github.com/ServiceNow/eva)![演示](https://servicenow.github.io/eva/#demo)![数据集](https://huggingface.co/datasets/ServiceNow-AI/eva-bench)

数据设计原则

EVA-Bench 在所有三个领域中的数据集设计遵循了五个基本原则。

语音优先范围。并非所有企业工作流都适合语音基准测试。我们首先确定了每个领域中哪些任务实际上通过电话处理,然后从中选择了最常见的流程。这样保持了场景与实际通话模式的联系。

现实性。 工具架构借鉴了生产平台使用的API类型。情景策略则根据实际的企业约束来制定。例如,在医疗保健HRSD领域,这意味着将情景建立在真实的美国医疗政策和行政系统之上,包括NPI号码、家庭医疗留置观察(FMLA)以及保险覆盖情况,从而使基准测试能够反映从业者在现实生活中遇到的领域。

多样性。 通过简单地重复相同任务来扩展数据集提供的评估信号有限。为了避免这种情况,我们为每个领域定义了特定的工作流程,并且在三种情景类型中进行了采样:单一意图呼叫、包含最多四个意图的多意图呼叫以及对抗性呼叫,其中呼叫者试图绕过故障排除步骤、错误分类紧急程度或访问其未经授权查看的记录。在单一和多意图场景内,我们还包含了用户目标无法实现的情况,因为实际通话量并非全是顺利流程,而我们的经验表明模型更难处理不可满足的目标,而不是成功的交互。

认证。 之前的工作(如EVA-Benchτ-Voice)已经将认证识别为语音代理中最一致的失败点之一。EVA-Bench 中每个领域都包含认证流程,且具体的机制是针对任务进行校准的。例如,在需要一次性密码(OTP)授权提升的地方才会出现这种情况,而不是在所有情景中均匀分布。

可重复性。 没有可重复的情景,就难以确定分数差异是否反映了真正的能力差距还是情景展开过程中的偶然结果。我们设计了数据集,使得每个情景恰好有一个正确的解决方案路径。用户目标的构建确保模拟器始终拥有所需的信息和指令以一致地行为,并且在生成情景时明确检查并排除了多个有效操作序列可以实现相同结果的情况。

情景生成

联合生成。 情景是使用基于图的合成数据生成管道 SyGra,以 GPT-5.4 作为核心来生成的。每个情景需要三个共同一致的部分,这些部分一起生成以防止独立生产组件时产生的不一致性:

用户目标。可重复性要求用户模拟器在每次运行场景时都表现出相同的行为。模糊的意图声明无法实现这一点:模拟器将在不同运行中做出不同的判断,从而产生不一致的评估信号。为消除这一问题,用户目标被结构化为一个决策树,涵盖了模拟器可能遇到的所有情况。用户目标明确规定了用户应该请求哪些事项,并且详细说明了在何时应坚持己见、何时寻求替代方案以及何时接受。常见的边缘案例,如是否接受备选航班或备降机场等,都通过明确的指令来处理,而不是留给模拟器去解释。解决条件要求提供已完成操作的确凿证据,例如确认编号或案件ID,而非口头承诺,因此模拟器会一直保持通话状态直到实际完成该操作。结果是用户行为如同一致且现实的呼叫者,而不是随机应变的呼叫者。

初始场景数据库。代理工具在运行场景期间将查询和修改的后端状态。与用户目标共同生成以确保用户目标中引用的所有实体(如预订ID、账户详情和认证凭据)都存在于数据库中并且是一致的。

预期最终数据库状态(真实结果)。我们通过在生成LLM上运行代理指令、用户目标以及初始场景数据库,来推导出预期的结果,从而产生完整的操作轨迹。随着LLM执行写入工具调用,数据库会逐步更新,并且最终状态成为评估期间验证者检查的基准。

联合生成是必不可少的,因为这三个组件之间深度互相关联。独立生成会导致无声的不一致性,例如用户目标中引用但场景数据库中不存在的案件ID,这将完全破坏评估信号。为了确保一致性,我们在每次生成尝试后运行多阶段验证循环,并将任何失败反馈给生成步骤,直到所有检查都通过为止。验证过程分为三个步骤。

  • 结构检查利用Pydantic模式来验证场景数据库中的结构错误和缺失字段。
  • 基于LLM的验证器从整体上检查场景的一致性:用户目标中面向用户的细节是否与数据库记录匹配,交叉引用是否内部有效,以及认证数据是否正确配置。
  • 基于LLM的操作轨迹验证步骤检查整个对话轨迹以确保符合政策合规性、正确的操作顺序、所有必要终端动作的完成,并且没有引入非确定性的替代写入路径。

进一步验证

[https://huggingface.co/blog/ServiceNow-AI/eva-bench-data#further-validation]

生成 SyGra 后,所有场景都经过了多轮人工审核。审核人员验证了以下几点:(1) 在同一领域内,策略应用保持一致;(2) 用户目标具体明确,确保只有一个正确的解决方案;(3) 预期最终状态在用户目标和初始数据库之间内部一致;以及 (4) 对抗性场景正确指定,具有明确可识别的策略违规。对于模糊或不一致的记录进行了修正或删除。

作为最后一步,我们使用三个前沿模型——OpenAI GPT-5.4、Google Gemini 3.1 Pro 和 Anthropic Claude Opus 4.6,在仅文本版本的每个场景上运行,绕过了音频管道,并直接提供对话转录。对于任何模型在任务完成上得分为零的每一个场景,我们手动调查该失败是真正的模型错误还是数据集问题:模糊不清的策略、用户目标不明确、工具执行器中的 bug 或初始数据库状态与预期状态之间的不一致。具有已识别数据集问题的记录进行了修正或删除。所有选定样本至少有一个前沿模型可以解决。

数据集深入探讨

我们创建了三个针对不同企业领域的数据集,每个数据集都旨在针对语音代理的不同难度轴心。所有这些数据集都需要准确地在语音中转录结构化的命名实体(例如确认代码和员工标识符),但它们的主要挑战和工具数量各不相同。

下面我们将深入探讨我们的两个新数据集:企业 ITSM 和医疗保健 HRSD。

图像 18: 2026-06-03 下午4点19分42秒的屏幕截图
图像 19: 2026-06-03 下午4点25分43秒的屏幕截图

多语言支持

仅限英语的评估对语音代理在另一种语言中的实际表现提供了有限的洞察。语音识别准确性、转录保真度和对话流畅性可能以特定于语言的方式下降,这意味着一个高性能的英语语音代理在其他语言环境中可能会完全失败。为了给实践者提供多语言部署的真实洞见,我们正在为更多语言添加支持,并适应每个目标语言及其文化中的评估管道:

  • 场景中引用的位置名称
  • 用户姓名和电子邮件地址
  • 本地化的电话号码

| 英文场景 | 法文场景 | | --- | --- | | 陈述: "Hi, I'm locked out and need help getting back into my account." | 陈述:"Bonjour, mon compte est bloqué et j’ai besoin d’aide pour y accéder à nouveau." | | 地点: [ "downtown", "engineering center" ] | 地点:[ "centre-ville", "centre d’ingénierie" ] | | 姓名:{"first_name": "Marcus", "last_name": "Chen"} | 姓名:{"first_name": "Éric", "last_name": "Nicolas"} | | 邮箱:[marcus.chen@example.com](mailto:marcus.chen@example.com) | 邮箱:[eric.nicolas@example.com](mailto:eric.nicolas@example.com) | | 电话:+1-512-555-0148 | 电话:+33 6 19 41 27 70 |

这使用户模拟器能够在所选语言中提供真实的体验。除了数据集之外,我们还在更新我们的评估指标和评判标准,以建立跨语言的信任性评价。

获取数据

EVA-Bench 完全开源并采用 MIT 许可证。数据集评估框架排行榜 都是公开可用的。下载数据集并探索HuggingFace 数据集页面上的单个记录。使用 Hugging Face datasets 库直接加载其中任何一个:

code
from datasets import load_dataset

# 航空公司客户服务管理 (CSM) — 50 场景
airline = load_dataset("ServiceNow-AI/eva-bench", "airline", split="test")
# 企业 IT 服务管理 (ITSM) — 80 场景
itsm = load_dataset("ServiceNow-AI/eva-bench", "itsm", split="test")
# 医疗健康 HR 服务交付 (HRSD) — 83 场景
hrsd = load_dataset("ServiceNow-AI/eva-bench", "medical", split="test")

每个记录包含一个结构化的用户目标、初始场景数据库和最终预期的数据库状态——所有这些都足以运行完整的机器人到机器人的评估。有关安装说明、代码和贡献指南,请参阅 GitHub 仓库

引用

code
@misc{bogavelli2026evabenchnewendtoendframework,
      title={EVA-Bench: A New End-to-end Framework for Evaluating Voice Agents}, 
      author={Tara Bogavelli and Gabrielle Gauthier Melançon and Katrina Stankiewicz and Oluwanifemi Bamgbose and Fanny Riols and Hoang H. Nguyen and Raghav Mehndiratta and Lindsay Devon Brin and Joseph Marinier and Hari Subramani and Anil Madamala and Sridhar Krishna Nemala and Srinivas Sunkara},
      year={2026},
      eprint={2605.13841},
      archivePrefix={arXiv},
      primaryClass={cs.SD},
      url={https://arxiv.org/abs/2605.13841}, 
}

@misc{ray2026tauvoicebenchmarkingfullduplexvoice,
      title={$\tau$-Voice: Benchmarking Full-Duplex Voice Agents on Real-World Domains}, 
      author={Soham Ray and Keshav Dhandhania and Victor Barres and Karthik Narasimhan},
      year={2026},
      eprint={2603.13686},
      archivePrefix={arXiv},
      primaryClass={cs.SD},
      url={https://arxiv.org/abs/2603.13686}, 
}

@misc{pradhan2025sygraunifiedgraphbasedframework,
      title={SyGra: 一种基于图的统一框架,用于可扩展的数据生成、质量标签和管理},
      author={Bidyapati Pradhan and Surajit Dasgupta and Amit Kumar Saha and Omkar Anustoop and Sriram Puttagunta and Vipul Mittal and Gopal Sarda},
      year={2025},
      eprint={2508.15432},
      archivePrefix={arXiv},
      primaryClass={cs.AI},
      url={https://arxiv.org/abs/2508.15432}, 
}

AI 可能会生成不准确的信息,请核实重要内容