Databricks 将 GPT-5.5 引入企业代理工作流
TL;DR · AI 摘要
Databricks 将 GPT-5.5 引入企业代理工作流,准确率提升至 50%,错误率下降 46%。
核心要点
- GPT-5.5 在 OfficeQA Pro 基准测试中达到 50% 的准确率,超越了之前所有模型。
- 与 GPT-5.4 相比,GPT-5.5 在处理扫描 PDF 和旧文档时的解析能力有显著提升。
- Databricks 通过 AI Unity Gateway 提供 GPT-5.5,支持 AgentBricks 和 Agent Supervisor API
结构提纲
按章节快速跳转。
- §引言
Databricks 推出 GPT-5.5,用于企业代理工作流,并在 OfficeQA Pro 基准测试中取得新突破。
GPT-5.5 在 OfficeQA Pro 上实现了 50% 的准确率,错误率比 GPT-5.4 下降了 46%。
GPT-5.5 在处理扫描 PDF 和旧文档时表现出更强的解析能力,减少了错误传播。
GPT-5.5 在多步骤任务中更可靠地检索上下文并完成复杂流程,无需额外监督。
Databricks 通过 AI Unity Gateway 提供 GPT-5.5,支持 AgentBricks 和 Agent Supervisor API 工作流。
GPT-5.5 被认为是知识工作的重大进步,将被广泛用于自定义代理工作流。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- GPT-5.5 企业代理工作流应用
- OfficeQA Pro 基准测试
- 50% 准确率(SOTA)
- 46% 错误率下降 vs GPT-5.4
- 关键性能提升
- 解析能力增强(扫描 PDF、旧文档)
- 多步骤任务协调优化
- 部署方式
- AI Unity Gateway
- AgentBricks & Agent Supervisor API 支持
金句 / Highlights
值得收藏与分享的关键句。
在代理设置中,GPT-5.5 相比 GPT-5.4 将错误率降低了 46%,并在 OfficeQA Pro 上首次超过 50% 的准确率。
早期版本如 5.4 无法正确解析所有数字,但 5.5 在解析旧文档和扫描 PDF 方面有了显著提升。
与早期模型相比,GPT-5.5 更可靠地检索相关上下文并完成复杂流程,无需额外监督。
标题:Databricks 将 GPT-5.5 引入企业智能体工作流
来源链接:https://openai.com/index/databricks
Markdown 内容: Databricks 将 GPT-5.5 引入企业智能体工作流 | OpenAI
2026年5月15日
GPT-5.5 在 OfficeQA Pro 基准测试中创下新纪录,这是 Databricks 针对复杂企业智能体任务设立的评估标准。
公司规模:企业级
区域:北美
行业:科技领域
产品:Codex
50% 在 OfficeQA Pro 基准测试中的准确率(当前最优水平)
46% 相较于 GPT-5.4 在 OfficeQA Pro 基准测试中的错误率降低幅度
收听文章
Databricks 正在将 GPT-5.5 应用于客户智能体工作流,此前该模型在 OfficeQA Pro(该公司针对复杂企业文档任务设立的基准测试)中创造了新的性能纪录。
OfficeQA Pro 评估模型在处理扫描版 PDF、遗留文件和长上下文文档等工作流时,如何进行解析、检索和基础推理——这些任务常常导致生产环境中的智能体系统出现故障。
在智能体控制测试环境中,GPT-5.5 相比 GPT-5.4 将错误率降低了 46%,并成为首个在 OfficeQA Pro 测试中准确率突破 50% 的模型。
“搭载 5.5 版本的 Codex 目前是所有智能体和模型中的性能标杆。”
– Arnav Singhvi,研发工程师
OfficeQA Pro 上的顶尖表现
OfficeQA Pro 包含大量扫描版或遗留企业文档,解析过程中微小的提取错误可能通过工作流产生连锁反应。“一旦无法提取某个数字或数值,就会完全改变智能体的工作轨迹,”Singhvi 解释道。
Databricks 在解析密集型工作流中观察到 GPT-5.5 带来的最大提升。“早期如 5.4 的模型无法正确解析所有数字,但 5.5 版本在处理老旧文档和扫描版 PDF 时似乎实现了阶跃式提升,”Singhvi 表示。
团队还在多步骤任务的协调调度方面看到改进。“我们在 5.4 版本中发现,有时它会进行不必要的搜索绕路,导致执行轨迹效率低下,”Singhvi 说道。
与早期模型相比,GPT-5.5 在检索相关上下文和完成复杂工作流时表现更可靠,且无需额外监督。
将 GPT-5.5 引入生产工作流
Databricks 现通过 AI Unity Gateway 提供 GPT-5.5,客户可在使用 AgentBricks 和 Agent Supervisor API 构建的工作流中调用该模型。在这些系统中,GPT-5.5 负责协调专业化智能体之间的解析、检索和执行操作。
“我们将看到大量客户使用 AgentBricks 和 Agent Supervisor API 构建定制化智能体工作流,”Singhvi 预测,“由 GPT-5.5 监管这些工作流令人非常振奋。”
“GPT-5.5 在知识提升方面表现卓越。这对我们开展知识工作而言是一次阶跃式变革。”
—Arnav Singhvi,研发工程师