T
traeai
登录
返回首页
Hugging Face Blog

超越大模型:为何企业级AI规模化依赖代理逻辑

9.2Score

TL;DR · AI 摘要

企业级AI规模化落地的关键不在大模型本身,而在于“代理逻辑”——通过知识图谱、程序分析等软件原语引导LLM精准执行任务,可降低30倍token消耗并提升准确率。

核心要点

  • IBM WCA4Z代理通过静态分析+预索引数据库,在百万行COBOL代码中实现30倍token节省,同时保持更高理解准确率。
  • Aster库结合程序分析与数据预处理,生成的测试用例在覆盖率和开发者评分上优于开源工具及零样本LLM。
  • 代理逻辑(Agent Logic)作为中间层,能有效约束LLM行为,减少幻觉、降低成本,并适配企业流程中的API/政策/法规约束。

结构提纲

按章节快速跳转。

  1. §核心主张:代理逻辑是企业AI规模化关键

    仅靠大模型无法支撑企业级AI落地,必须引入代理逻辑来引导LLM执行复杂、受约束的业务流程。

  2. 动态长时运行、多API/数据库依赖、受政策法规约束,要求代理具备上下文压缩与方向引导能力。

  3. 代理逻辑包含知识图谱、算法、程序分析库等,可在代理框架内主动引导LLM,缩小上下文空间并提升效率。

  4. 案例1:WCA4Z代理解析百万行遗留代码

    通过静态分析+结构化数据库索引,该代理在COBOL系统中实现30倍token节省,同时维持高准确率。

  5. 案例2:Aster库自动生成高质量测试用例

    基于程序分析的Aster在Java应用中生成的测试覆盖度和开发者评分均优于开源工具与零样本LLM。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • 代理逻辑驱动企业AI规模化
    • 企业工作流挑战
      • 动态长时运行
      • 多API/服务依赖
      • 政策法规约束
    • 代理逻辑构成
      • 知识图谱
      • 程序分析库
      • 算法引导机制
    • 实际应用案例
      • WCA4Z:遗留代码理解
      • Aster:自动化测试生成

金句 / Highlights

值得收藏与分享的关键句。

  • 该方法应用于多个关键遗留系统(最高达100万行代码和1000个程序)时,保持略优的应用理解性能,同时token消耗比纯前沿LLM方案低约30倍。

    第1节

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 代理逻辑是如知识图谱、算法、程序分析库等软件原语,运行于代理层,可主动引导LLM,减少上下文空间。

    代理逻辑定义部分

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 基于上述优势及更高的行、分支、方法覆盖率基准,Aster已在75+个IBM CIO Java应用中进入预生产阶段。

    第2节

    ⬇︎ 下载 PNG𝕏 分享到 X
#代理逻辑#企业AI#大模型优化#程序分析#IBM
打开原文

标题:超越大语言模型:为何可扩展的企业级 AI 采用依赖于智能体逻辑

来源网址:https://huggingface.co/blog/ibm-research/agent-logic-and-scalable-ai-adoption

发布时间:2026-06-01T13:51:18.913Z

Markdown 内容:

自古以来,人类便依靠向导指引方向。史前文明已懂得利用太阳与月亮在陆地和远洋航行中导航。随着时间推移,各类旅程促成了地图的绘制,以便更好地规划路线、缩短重复目的地的通行时间。几个世纪后,指南针的出现使航海者能够更精确地探索未知之地。而今天,GPS 导航应用则引导着我们的每一次出行。在当今的智能体 AI 时代,AI 智能体无疑具备推动 AI 可扩展化落地的潜力,将彻底改变我们所熟知的各行各业。然而,要实现这一潜力,仍需一个“智能向导”——即智能体逻辑——来驱动高质量、高性价比的智能体表现,从而赢得终端用户的信任。

企业工作流与应用场景

多项研究指出,大量 AI 试点项目以失败告终;同时也有研究强调,AI 必须深入嵌入企业核心工作流,方能实现规模化落地。[1] [2] 为更好理解这一现象及其相关论断,有必要对企业工作流进行分析。这些工作流具有以下特征:

A. 动态且持续运行 B. 包含大量 API、数据库和服务 C. 常常受限于业务政策和/或法规

鉴于上述特性,若要让智能体有效运作,自然需要扩展模型上下文——当前前沿的大语言模型(LLM)确实具备此能力,但代价是什么?是幻觉增加、token 消耗上升吗?此外,能否为 LLM 配备一个“智能向导”(如 GPS),使其在工作流核心执行智能体 AI,从而驱动更理想的结果?我们通过设计并构建配备相关智能体逻辑的智能体,针对 IBM 产品进行了测试,充分考虑了上述特性。这些产品涉及企业软件交付生命周期各阶段专家所面临的最具挑战性的任务,包括:

  1. 理解用遗留代码(Cobol / PL/1)编写的应用程序
  2. 加速开发者测试生成
  3. 主动响应事件并实现左移式应用韧性
  4. 自动化关键环境的合规现代化

在深入探讨每个领域之前,我们先定义“智能体逻辑”的含义。智能体逻辑是指运行在智能体层(智能体框架内)的软件原语,例如知识图谱、算法、程序分析库等,它们可有意引导 LLM 朝企业工作流方向发展,从而缩小上下文空间。如此一来,往往能在更低成本下获得更优性能。接下来,我们将逐一考察智能体逻辑如何在上述四个领域实现此类成果。

  1. 理解用遗留代码(Cobol / PL/1)编写的应用程序 —— 程序分析。[3]

IBM watsonx Z 平台代码助手(WCA4Z)旨在借助 AI 和自动化加速大型机应用程序开发与现代化,其内置“应用洞察智能体”,用于理解应用程序——这是在 IBM 大型机上运行关键任务负载的企业客户的核心关注点之一。该智能体对应用程序进行深度静态分析,并将预索引表示存储在涵盖数百张相互关联表、语义复杂的数据库架构中,使智能体能够检索精确、结构化的现有信息,从而提高回答准确性、减少 token 使用量,并最小化与语言模型(此处为 Mistral Medium 250B)的来回交互。当应用于多个关键遗留系统(最高达 100 万行代码和 1000 个程序)时,该方法相比仅使用前沿 LLM 的基线方法,在应用理解性能上保持微弱优势,同时 token 消耗降低约 30 倍。

  1. 利用 Aster 加速开发者测试生成 —— 程序分析。[4], [5]

Aster 是 IBM 专有的程序分析及数据预处理/后处理库,用于基于智能体生成单元测试、集成测试、API 测试和变更相关测试。通过对多个开发者社区的分析,其生成的测试获得比各类开源工具或开发者手写测试更高的评分。基于上述结果以及优于同类开源工具(集成测试)和零样本 LLM 与编码智能体(单元测试)的行覆盖、分支覆盖和方法覆盖基准(均在开源应用上测试),我们已在 75+ 个 IBM CIO Java 应用(最多 560+ 类、67K+ 行代码)中以预生产模式运行 Aster,搭配 Devstral 24B 模型。截至目前的稳定状态结果显示,行、分支和方法覆盖率提升 20%–45%,并在部分应用上表现优于最先进编码智能体,同时 token 消耗降低数个数量级(最高达 15 倍)。其背后原理在于:程序分析输出(用于提示并“聚焦”LLM)结合用于增强覆盖率和修复运行时/编译错误的子智能体,共同实现了更高性能与显著成本节约。

  1. 主动响应事件并实现左移式应用韧性 —— 知识图谱、程序分析库与调查(可观测性)驱动的编排。[6],[7]

虽然如第1和第2节所述,LLM在应用相关用例中的上下文“受限”于应用源代码,但在已部署基础设施上对应用进行运行时管理时,底层IT全栈便发挥作用。在此,我们定义了一个知识图谱(KG),涵盖实体(微服务、数据库/中间件服务、MELT等)并结合领域专家嵌入的“部落”知识。借助此类图谱,并将LLM限制在本地边界推理以处理非确定性结果,采用一种以可观测性驱动的方法,实现覆盖IT栈及底层应用源代码(如相关)的缩减上下文空间,用于事件根本原因分析(及其他用例)。通过此方法,利用等效的Instana数据模型,我们观察到专有的Instana“I3”(智能事件调查[8])代理在使用ITBench[9]衡量时,相比基于GPT-5.1的ReAct代理性能提升高达4.0倍。当使用Gemini 3 Flash时,ReAct代理性能提升至仅比I3代理低17%,但消耗的token多出1.6倍。我们将此方法扩展至源代码领域,开发了用于代码分析(利用程序依赖图)和缺陷修复(利用推理扩展)的代理,并在ITBench上测试,结果显示源代码分析与缺陷修复代理(Gemini 2.5 Flash)在定位问题微服务(3.0倍)和缺陷修复(1.6倍)方面均优于最先进的编码代理,同时分别节省3.7倍和5.9倍的token消耗。该多代理系统已在IBM Think大会上作为新发布的IBM Concert平台的一部分公布,用于左移IT运维,并正在IBM CIO内部试点。[10]

  1. 自动化关键环境的IT合规现代化——算法与自适应规划及编排。[11]

企业面临日益复杂且分散的合规要求,迫使团队花费大量时间手动创建控制措施、评估和修复计划。目前缺乏集中式知识库,修复方案需手动编写,易引入错误和安全漏洞。由于合规工作复杂且多步骤,需要跨专业代理协调策略驱动的自动化,而非人工操作或简单AI提示。我们的多代理系统通过算法将复杂任务分解为协调步骤,运用自适应规划、动态分解和工作流排序,并结合持续反馈迭代识别修复方案并扩展评估范围。根据ITBench测量,其性能比先前采用固定规划策略的代理(Claude 4 Sonnet)高出1.3–2.0倍。该方法将合规转变为持续引导的自我修正过程,显著改善成果,尤其在复杂场景中,成功率从个位数提升至最高+80%(Claude 4 Sonnet)。该多代理系统及16,000+数字化控制映射作为IBM Sovereign Core的一部分在IBM Think大会发布,集成监控与漂移检测功能,提供自动化证据生成,确保审计证据安全保留在客户控制范围内。[12]

上述示例说明了代理逻辑在减少LLM上下文、引导LLM高效且经济地遍历核心工作流方面的影响力。此外,我们还在两个案例研究中采用了类似方法:一是在医疗领域使用可配置通用代理及运行时(CUGA),二是在IBM全球房地产部门用于物理资产的状态维护。

领域案例研究

案例研究1:可配置通用代理(CUGA)医疗基准——算法策略执行。[13]

以下健康保险客户服务示例简洁说明了为何代理系统在受监管环境中优于纯LLM对话模型。CUGA(可配置通用代理)的策略系统实现了“策略即代码”的代理治理,在运行时独立于模型提示且无需微调即可强制执行。实验表明,代理的策略系统大幅缩小了任务正确性的差距,强制执行结构化工作流、安全意图处理、可靠工具使用及受控输出格式,覆盖所有模型家族(Claude Opus – 4.5、GPT OSS 120B 和 GPT – 4.1),准确率提升幅度为15%至26%。权限通过最小特权披露、明确合规规则和人工升级路径实施。智能行动由系统建议,而权限行使则由策略与监督机制控制。推理自主,决策权受限。CUGA也是IBM Think大会上Sovereign Core发布的核心组件之一。

案例研究2:IBM全球房地产物理资产的状态维护——有向无环图。[14],[15]

企业维护系统收集了大量资产数据,但无法有效整合这些数据,迫使专家手动拼凑零散的信号,并在缺乏统一、基于证据的洞察的情况下做出决策。我们最近推出的 Maximo Condition Insights [16] 代理可跨数千个资产和地点(传感器、工单、故障模式与事件分析)分析大规模资产数据,利用结构化证据和验证循环可靠地识别问题、优先处理行动,并以一致且可追溯的洞察支持决策。我们已在 IBM 全球房地产部(GRE)内部试点该代理(使用 GPT OSS 120B),将资产分析时间从 15-20 分钟缩短至 15-30 秒(提升 97%),并将资产审查覆盖率从约 1% 提高至约 30%,覆盖超过 120 个站点和 6,000 项实物资产。借助 AssetOpsBench,Condition Insights 代理将无依据主张减少了 57%,冗长内容减少 35%,规则合规性提高 30%,保持接近零的矛盾率,同时平均降低 77% 的 token 使用量,并略微提升了诊断特异性。该代理配备有有向无环图,提供结构工程与运营上下文,以减少在简单提示下产生的无依据推理;而具备约束感知的提示则显著提高了规则遵循度、减少冗长内容并降低整体 token 消耗,且不会引入不稳定性。

总结与参考文献: 数百年来,指南一直帮助我们简化并改善生活。随着技术演进,我们使用的指南也在不断进化,使我们能够完成更多任务,进一步缩小“地球村”的距离。在当前智能体 AI 时代到来之际,当我们希望通过规模经济进一步提升社会时,应延续这一趋势,充分利用智能体逻辑简化模型上下文,并智能遍历企业工作流的核心环节;唯有如此,才能真正实现以最优运营成本进行规模化部署。

[1] 生成式 AI 差距:《2025 年商业 AI 现状》,MIT 研究,https://mlq.ai/media/quarterly_decks/v0.1_State_of_AI_in_Business_2025_Report.pdf

[2] 从 AI 项目到利润:智能体 AI 如何持续创造财务回报,IBM IBV 报告,https://www.ibm.com/thought-leadership/institute-business-value/en-us/report/agentic-ai-profits

[3] 了解 IBM Watson Code Assistant for Z,2026 年 2 月 27 日,https://www.ibm.com/docs/en/watsonx/watsonx-code-assistant-4z/2.x?topic=understand

[4] R. Pan, R. Krishna, R. Pavuluri 等,《ASTER:使用大语言模型生成自然语言及多语言单元测试》——IBM 研究,2025 年 4 月 30 日,https://research.ibm.com/blog/aster-llm-unit-testing

[5] R. Pan, R. Pavuluri, R. Huang 等,《SAINT:基于程序分析与 LLM 智能体的服务级集成测试生成》,2025 年 11 月 17 日,https://arxiv.org/abs/2511.13305

[6] S. Jha, R. Arora, Bhavya 等,《局部思考,全局解释:通过局部推理与信念传播引导图结构的大语言模型调查》,2026 年 1 月 25 日,https://arxiv.org/abs/2601.17915

[7] S. Cui, R. Krishna, S. Jha 等,《用于云应用中代码相关事件根本原因分析的智能体结构化图遍历》,2025 年 12 月 26 日,https://arxiv.org/html/2512.22113v1

[8] IBM Instana 与智能事件调查代理 —— 使用智能体 AI 通过 IBM Instana 智能事件调查更快解决事件

[9] S. Jha, R. Arora, Y. Watanabe 等,《ITBench:评估 AI 智能体在多样化真实世界 IT 自动化任务中的表现》,2025 年 2 月 7 日,https://arxiv.org/abs/2502.05352

[10] IBM Concert 平台 https://www.ibm.com/new/announcements/from-insight-to-action-closing-the-gap-in-modern-it-operations

[11] Y. Watanabe, T. Yanagawa, H. Kitahara, A. Sailer,《使用生成式 AI CISO 评估智能体实现 IT 合规自动化》,DZone 教程,2025 年 12 月 12 日,https://dzone.com/articles/itbench-part-3-it-compliance-automation-with-genai

[12] IBM Sovereign Core https://newsroom.ibm.com/2026-05-05-think-2026-ibm-makes-digital-sovereignty-operational-with-general-availability-of-ibm-sovereign-core

[13] S. Shlomov, A. Oved, S. Marreed 等,《从基准测试到业务影响:在企业生产环境中部署 IBM 通用智能体》,2025 年 12 月 9 日,https://arxiv.org/pdf/2510.23856

[14] D. Patel, S. Lin, J. Rayfield 等,《AssetOpsBench:面向工业资产运维任务自动化的 AI 智能体基准测试》,2025 年 6 月 4 日,https://arxiv.org/abs/2506.03828

[15] Fearghal O'Donncha, Nianjun Zhou, Natalia Martinez 等,《利用异构数据进行工业维护的证据驱动推理》,https://arxiv.org/abs/2603.08171

[16] IBM Maximo 与 Condition Insights 智能体 https://www.ibm.com/new/announcements/maximo-condition-insight

AI 可能会生成不准确的信息,请核实重要内容