T
traeai
登录
返回首页
Databricks

3倍速搜索:基于Instructed-Retriever-1的并行测试时缩放

9.2Score

TL;DR · AI 摘要

Databricks发布Instructed-Retriever-1模型,通过并行测试时计算将搜索延迟降低3倍、首Token时间缩至2秒,且无需牺牲检索质量。该模型统一查询生成与重排序任务,利用多枢轴分组重排和并行查询扩展实现召回率与精确度的帕累托最优,为企业级RAG系统提供低延迟高精度检索新范式。

核心要点

  • Instructed-Retriever-1使搜索延迟降低3倍以上,TTFT降至约2秒,无需重新配置。
  • 单模型同时执行并行查询生成与多枢轴重排序,替代传统串行Agent推理链。
  • 在KARLBench上匹配Claude Sonnet 4.5检索质量,验证企业负载下的有效性。

结构提纲

按章节快速跳转。

  1. Instructed-Retriever-1通过并行测试时缩放实现搜索延迟降低3倍且保持检索质量不变。

  2. 系统将查询生成与重排序并行化,替代传统串行推理以降低延迟并提升上下文质量。

  3. 采用多枢轴groupwise reranker对合并候选集进行并行分组排序,兼顾精度与效率。

  4. Instructed-Retriever-1作为单一模型同时训练查询生成与重排序能力以支持全流程并行。

  5. KARLBench上验证该模型在企业真实负载下达到与Claude Sonnet 4.5相当的检索质量。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • Instructed-Retriever-1 并行检索优化
    • 并行测试时缩放
      • 并行查询/过滤生成
      • 多枢轴分组重排
    • 统一检索模型
      • 单模型双任务训练
      • 企业Schema感知
    • 性能验证
      • KARLBench基准
      • TTFT≈2秒

金句 / Highlights

值得收藏与分享的关键句。

  • 答案生成时间缩短2倍,搜索时间缩短3倍以上,首Token时间降至约2秒。

    第1段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • Instructed-Retriever-1是单一模型,同时训练查询生成(提升召回)和重排序(提升精度),并行运行以保持低延迟。

    第2段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 增加查询表述数量可提升召回率,增加枢轴数量可提升精确度——两者均通过并行实现且不增加延迟。

    第1节

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 在KARLBench上匹配Claude Sonnet 4.5的检索质量,同时保持显著更低的延迟。

    第2节

    ⬇︎ 下载 PNG𝕏 分享到 X
#RAG#测试时缩放#Instructed-Retriever-1#Databricks#检索
打开原文

标题:搜索速度提升 3 倍:基于 Instructed-Retriever-1 的并行测试时扩展

URL 来源:https://www.databricks.com/blog/3x-faster-search-parallel-test-time-scaling-instructed-retriever-1

发布时间:2026-06-04T13:31:40+0000

Markdown 内容: 今天,我们宣布一项重大更新,使 Agent Bricks Knowledge Assistant 在速度和质量上均实现显著提升。答案生成时间缩短了 2 倍,搜索时间缩短了 3 倍以上,首 Token 延迟(TTFT)降至约两秒。¹ 因此,Knowledge Assistant 用户将在各种应用场景中获得明显更快的响应,且无需重新配置,也不会牺牲任何质量。

这些性能提升得益于 Instructed-Retriever-1,这是一款专为并行测试时扩展构建的检索专用模型。与标准的智能体检索不同——后者按顺序工作,并在决定下一步之前对每个结果进行推理——我们的方法将这项工作并行展开。Instructed-Retriever-1 是一个单一模型,同时针对两个检索阶段进行了训练:用于提高召回率的查询生成和用于提高精确度的重排序,两者并行运行以保持低延迟。在本文中,我们将介绍这种方法如何实现帕累托最优性能,如何训练一个模型以支持完整的检索流程,以及如何在真实的企业工作负载上验证其性能。

图表:KARLBench 上,搭载 Instructed-Retriever-1 的 Knowledge Assistant 在搜索延迟和检索质量方面均有提升。

1. 面向搜索的并行测试时扩展

我们之前的研究表明,增加测试时计算量可以提升质量。然而,目前大多数智能体搜索系统将这些计算资源消耗在串行操作上,例如工具调用、推理-行动循环和思维链推理。这些方法确实能提高搜索质量,但代价是显著增加了延迟和成本。在训练 Instructed-Retriever-1 时,我们采取了不同的路径:不在序列上扩展计算,而是在初始搜索阶段将其并行化。通过扩大检索证据的范围并预先选择最相关的上下文,我们实现了高效搜索,同时显著降低了延迟。

改进初始搜索在很大程度上依赖于训练框架。我们的框架为模型提供用户指令和底层检索索引的精确模式,并将其传播到后续的查询与过滤生成、重排序及答案生成的所有阶段。我们在早期的 Instructed Retriever 博客中描述了如何实现这一点,并且在训练 Instructed-Retriever-1 模型时使用了相同的搜索框架。这种方法对于企业级问题尤为重要,因为这类问题通常涉及特定领域的约束条件,如时间段、组织、文档类型或产品领域。

并行查询与过滤生成通过同时探索同一请求的多种表述方式和维度,提高了候选集的召回率。这使得系统能够在保持低延迟的同时进行更广泛的搜索。更广泛的搜索带来了聚合挑战。不同的表述可能会返回重叠或仅部分相关的文本块。为了从合并后的候选集中选出最有用的上下文,我们使用了多枢轴(multi-pivot)分组重排序器。候选项被分成并行组进行排序,每组由一个或多个枢轴文本块锚定,然后将各组排序结果合并为最终顺序。这既保留了在上下文中比较证据的关键优势,又保持了重排序的高效性。

综上所述,这些阶段提供了两个测试时扩展调节旋钮:增加查询和过滤表述的数量可提高召回率,而增加枢轴数量则可提高精确度。由于这两个阶段都可以利用并行处理,系统能够以增加测试时计算量为代价换取更高质量的上下文,同时保持低延迟。

图表: Instructed-Retriever-1 所使用的搜索框架。

**2. 训练 Instructed-Retriever-1**

面向搜索的并行测试时扩展要求模型具备两项核心能力:生成有效的搜索查询和评估检索到的证据。我们将 Instructed-Retriever-1 训练为一个单一的检索专用模型,支持并行查询生成和重排序。最终得到的模型在 KARLBench 上的检索质量与 Claude Sonnet 4.5 相当,同时保持了低延迟。

图表:训练后在 KARLBench 上的检索质量,跨不同重排序配置进行评估。 Instructed-Retriever-1 的检索质量与 Claude Sonnet 4.5 相当。在各模型中,基于枢轴的重排序相比无重排序设置提升了 Recall@10,而双枢轴配置比单枢轴进一步提升了质量。

为了准备训练数据,我们从广泛的预训练语料库中构建了合成企业级检索环境,该过程独立于我们的评估基准。我们使用 KARL 报告中描述的智能体数据合成方法来创建这些环境。由此产生的环境反映了 Knowledge Assistant 必须处理的各种任务类型,包括在结合了非结构化文档与结构化元数据的语料库上进行事实查询、摘要生成、推荐、问题解决和决策支持。

该模型通过两个阶段的训练来掌握多种搜索能力。最终得到的模型同时支持查询与过滤条件生成,以及验证式检索能力,从而实现了让并行测试时扩展(Parallel Test-Time Scaling)在实际应用中发挥作用的两个关键阶段。

3. 在生产环境中验证 Instructed-Retriever-1

只有当检索改进能够在真实工作负载上生效,并满足生产环境的延迟要求时,这种改进才具有实际意义。我们在一个能够代表知识助手(Knowledge Assistant)使用情况的大规模内部数据集上对 Instructed-Retriever-1 进行了评估,以衡量上述两种扩展机制是否能提升检索质量:用于提升召回率的并行查询与过滤条件生成,以及用于提升精确度的多支点重排序(multi-pivot reranking)。

图示:由 Instructed-Retriever-1 驱动的知识助手演示。

**真实工作负载下的检索质量**

我们的评估数据集基于真实的知识助手工作负载构建;在这些场景中,有用的回答往往需要多条支撑证据,而非单一的基准真相文档。我们分两个阶段评估检索效果。首先,我们测量所有候选系统在查询生成方面的延迟和质量。在质量评估方面,我们使用 LLM 评判器(LLM-judge)对具体性广度相关性进行打分。这些指标能够反映生成的查询是否具有针对性、是否覆盖了请求的关键方面,以及是否有助于回答问题。

图示:在类生产环境的内部示例上的查询生成质量与延迟。 平均评分基于 1-5 分制,从具体性、广度和相关性三个维度评估查询生成质量。延迟针对查询生成阶段计算得出。

重排序阶段,我们保持检索到的候选集不变,评估每个重排序模型筛选出最有用证据的效果。为了获得细粒度的相关性标签,我们使用 LLM 评判器按照 0-3 分的 TREC 风格相关性量表对每个文本块进行评分,然后根据排序结果计算 nDCG@10。Claude Sonnet 4.5 和 Instructed-Retriever-1 的 nDCG@10 得分分别为 80.1 和 81.0。与不进行重排序的设置相比,分别提升了 +12.8% 和 +14.1%,充分证明了我们多支点分组重排序器的有效性。

总体而言,在真实工作负载上,Instructed-Retriever-1 在查询生成的各项评分指标中表现优异,且在重排序任务上与最强基线模型不相上下。这证实了使用单一检索专用模型同时完成查询生成和候选筛选是可行的。

服务性能

只有当额外的计算资源能够被高效调度,并能随搜索数量线性扩展时,并行测试时扩展才具有实用价值。为此,Instructed-Retriever-1 采用了混合专家模型(Mixture-of-Experts)架构,并实施了多项服务优化,包括 FP8 量化2推测解码(speculative decoding),以及针对整个检索流水线的基础设施调优。在我们的评估中,与 BF16 相比,FP8 在未出现质量下降的同时,提升了推理速度和吞吐量。3 对于包含查询生成和重排序的完整路径,推测解码进一步带来了 30% 以上的加速

结论

本次更新将并行测试时扩展引入了生产级搜索技术栈。该系统通过并行生成查询和过滤条件实现广泛检索,随后利用多支点证据比对进行精准重排序。Instructed-Retriever-1 作为一个专为搜索生成和证据排序训练的检索专用模型,为这两个阶段提供统一支持。最终打造出的知识助手既更智能又更迅捷:在我们的离线评估环境中,搜索耗时缩短超过 3 倍,答案生成耗时缩短 2 倍,首字延迟(TTFT)约为 2 秒,端到端延迟稳定低于 10 秒¹ 贝勒大学(Baylor University)等早期用户已经明显感受到了这一变化。

“(新体验)更加简洁,响应‘灵敏’,能更快呈现关键信息——这对我们的应用场景而言是一次显著的用户体验提升。”——Kyle Van Pelt,贝勒大学招生管理流程与治理总监。

_立即让您的_知识助手_发挥更大价值。Instructed-Retriever-1 已开始面向所有客户逐步推出,帮助团队以更少的等待时间获取更高质量的上下文;您可以提出更多问题,发掘更多知识,更快地从提问走向答案。立即体验。_

1 延迟估算值为离线评估的平均值,平均输出长度约为 256 个 token。实际延迟可能因特定知识助手实例中的数据形态和查询内容而异。

2 我们使用 NVIDIA 的 ModelOpt 库进行 FP8 量化。

3 我们在 KARLBench 上对 BF16 和 FP8 模型进行了 10 次试验评估。结果显示,FP8 相对于 BF16 没有出现统计学上显著的质量下降:平均分差为 +0.33 分,标准误为 1.69 分,95% 置信区间为 [-2.99, 3.65]。

AI 可能会生成不准确的信息,请核实重要内容

3倍速搜索:基于Instructed-Retriever-1的并行测试时缩放 | Databricks | traeai