Databricks 将 GPT-5.5 引入企业代理工作流

OpenAI Blog

OpenAI Blog2026年5月15日

Databricks 将 GPT-5.5 引入企业代理工作流

8.5Score

TL;DR · AI 摘要

Databricks 将 GPT-5.5 引入企业代理工作流，准确率提升至 50%，错误率下降 46%。

核心要点

GPT-5.5 在 OfficeQA Pro 基准测试中达到 50% 的准确率，超越了之前所有模型。
与 GPT-5.4 相比，GPT-5.5 在处理扫描 PDF 和旧文档时的解析能力有显著提升。
Databricks 通过 AI Unity Gateway 提供 GPT-5.5，支持 AgentBricks 和 Agent Supervisor API

结构提纲

按章节快速跳转。

§引言
Databricks 推出 GPT-5.5，用于企业代理工作流，并在 OfficeQA Pro 基准测试中取得新突破。
·OfficeQA Pro 基准测试表现
GPT-5.5 在 OfficeQA Pro 上实现了 50% 的准确率，错误率比 GPT-5.4 下降了 46%。
›解析性能提升
GPT-5.5 在处理扫描 PDF 和旧文档时表现出更强的解析能力，减少了错误传播。
›多步骤任务协调改进
GPT-5.5 在多步骤任务中更可靠地检索上下文并完成复杂流程，无需额外监督。
·GPT-5.5 的生产部署
Databricks 通过 AI Unity Gateway 提供 GPT-5.5，支持 AgentBricks 和 Agent Supervisor API 工作流。
›客户使用场景
GPT-5.5 被认为是知识工作的重大进步，将被广泛用于自定义代理工作流。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

GPT-5.5 企业代理工作流应用
- OfficeQA Pro 基准测试
  - 50% 准确率（SOTA）
  - 46% 错误率下降 vs GPT-5.4
- 关键性能提升
  - 解析能力增强（扫描 PDF、旧文档）
  - 多步骤任务协调优化
- 部署方式
  - AI Unity Gateway
  - AgentBricks & Agent Supervisor API 支持

金句 / Highlights

值得收藏与分享的关键句。

在代理设置中，GPT-5.5 相比 GPT-5.4 将错误率降低了 46%，并在 OfficeQA Pro 上首次超过 50% 的准确率。
— 第 2 段
⬇︎ 下载 PNG 𝕏 分享到 X
早期版本如 5.4 无法正确解析所有数字，但 5.5 在解析旧文档和扫描 PDF 方面有了显著提升。
— 第 3 段
⬇︎ 下载 PNG 𝕏 分享到 X
与早期模型相比，GPT-5.5 更可靠地检索相关上下文并完成复杂流程，无需额外监督。
— 第 3 段
⬇︎ 下载 PNG 𝕏 分享到 X

#GPT-5.5#Databricks#AI Agent#OfficeQA Pro#自然语言处理

打开原文

标题：Databricks 将 GPT-5.5 引入企业智能体工作流

来源链接：https://openai.com/index/databricks

Markdown 内容： Databricks 将 GPT-5.5 引入企业智能体工作流 | OpenAI

2026年5月15日

GPT-5.5 在 OfficeQA Pro 基准测试中创下新纪录，这是 Databricks 针对复杂企业智能体任务设立的评估标准。

公司规模：企业级

区域：北美

行业：科技领域

产品：Codex

50% 在 OfficeQA Pro 基准测试中的准确率（当前最优水平）

46% 相较于 GPT-5.4 在 OfficeQA Pro 基准测试中的错误率降低幅度

收听文章

Databricks 正在将 GPT-5.5 应用于客户智能体工作流，此前该模型在 OfficeQA Pro（该公司针对复杂企业文档任务设立的基准测试）中创造了新的性能纪录。

OfficeQA Pro 评估模型在处理扫描版 PDF、遗留文件和长上下文文档等工作流时，如何进行解析、检索和基础推理——这些任务常常导致生产环境中的智能体系统出现故障。

在智能体控制测试环境中，GPT-5.5 相比 GPT-5.4 将错误率降低了 46%，并成为首个在 OfficeQA Pro 测试中准确率突破 50% 的模型。

“搭载 5.5 版本的 Codex 目前是所有智能体和模型中的性能标杆。”

– Arnav Singhvi，研发工程师

OfficeQA Pro 上的顶尖表现

OfficeQA Pro 包含大量扫描版或遗留企业文档，解析过程中微小的提取错误可能通过工作流产生连锁反应。“一旦无法提取某个数字或数值，就会完全改变智能体的工作轨迹，”Singhvi 解释道。

Databricks 在解析密集型工作流中观察到 GPT-5.5 带来的最大提升。“早期如 5.4 的模型无法正确解析所有数字，但 5.5 版本在处理老旧文档和扫描版 PDF 时似乎实现了阶跃式提升，”Singhvi 表示。

团队还在多步骤任务的协调调度方面看到改进。“我们在 5.4 版本中发现，有时它会进行不必要的搜索绕路，导致执行轨迹效率低下，”Singhvi 说道。

与早期模型相比，GPT-5.5 在检索相关上下文和完成复杂工作流时表现更可靠，且无需额外监督。

将 GPT-5.5 引入生产工作流

Databricks 现通过 AI Unity Gateway 提供 GPT-5.5，客户可在使用 AgentBricks 和 Agent Supervisor API 构建的工作流中调用该模型。在这些系统中，GPT-5.5 负责协调专业化智能体之间的解析、检索和执行操作。

“我们将看到大量客户使用 AgentBricks 和 Agent Supervisor API 构建定制化智能体工作流，”Singhvi 预测，“由 GPT-5.5 监管这些工作流令人非常振奋。”

“GPT-5.5 在知识提升方面表现卓越。这对我们开展知识工作而言是一次阶跃式变革。”

—Arnav Singhvi，研发工程师

Databricks 将 GPT-5.5 引入企业代理工作流

TL;DR · AI 摘要

核心要点

结构提纲

思维导图

金句 / Highlights

OfficeQA Pro 上的顶尖表现

将 GPT-5.5 引入生产工作流

延伸阅读