我们近期关于AI委托与长期可靠性的研究补充说明

Microsoft Research Blog

Microsoft Research Blog2026年5月15日

我们近期关于AI委托与长期可靠性的研究补充说明

6.0Score

TL;DR · AI 摘要

微软研究院发布关于AI委托与长期可靠性研究的补充说明，但内容以导航链接为主，缺乏具体技术细节。

核心要点

文章主要为导航页面，未提供具体技术内容。
微软研究院的研究方向涵盖人工智能、系统、理论等多个领域。
文章未深入探讨AI委托或长期可靠性的具体机制或实验结果。

结构提纲

按章节快速跳转。

§引言
文章是微软研究院关于AI委托与长期可靠性研究的补充说明。
·研究资源
提供了访问论文、代码、数据和研究人员的链接。
›研究领域分类
将研究分为人工智能、系统、理论和其他科学等类别。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

微软研究院研究概述
- 研究主题
  - 人工智能
  - 系统
  - 理论
  - 其他科学
- 研究资源
  - 论文
  - 代码与数据
  - 人员信息
  - 博客文章

金句 / Highlights

值得收藏与分享的关键句。

我们的研究提供了微软研究院在人工智能及其他领域工作的全面概述。
— 第 1 段
⬇︎ 下载 PNG 𝕏 分享到 X
资源包括与微软研究院相关的论文、代码与数据、人员信息和博客文章。
— 第 2 段
⬇︎ 下载 PNG 𝕏 分享到 X
研究领域被分为人工智能、系统、理论和其他科学等类别。
— 第 3 段
⬇︎ 下载 PNG 𝕏 分享到 X

#AI#微软研究院#研究综述

打开原文

关于我们近期 AI 委托与长程可靠性研究的补充说明 - Microsoft Research

跳至主要内容

研究

我们的研究

资源

研究领域：智能

研究领域：系统

研究领域：理论

研究领域：其他科学

项目与活动

学术项目活动与学术会议 Microsoft Research Forum

联系与学习

Behind the Tech 播客 Microsoft Research 博客 Microsoft Research Forum Microsoft Research 播客

关于

人员与新闻

Microsoft Research 实验室

其他实验室

更多

注册：Research Forum

所有 Microsoft

技术与创新

行业

合作伙伴

资源

查看网站地图

取消

搜索

Microsoft 研究院博客

关于我们近期 AI 委托与长程可靠性研究的进一步说明

发布日期：2026 年 5 月 15 日

作者：Philippe Laban，高级研究员 Tobias Schnabel，首席研究员 Jennifer Neville，合伙人研究经理

分享此页面

[在 Facebook 上分享](https://www.facebook.com/sharer/sharer.php?u=https%3A%2F%2Fwww.microsoft.com%2Fen-us%2Fresearch%2Fblog%2Ffurther-notes-on-our-recent-research-on-ai-delegation-and-long-horizon-reliability%2F "Share on Facebook")
[在 X 上分享](https://x.com/intent/tweet?text=Further%20Notes%20on%20Our%20Recent%20Research%20on%20AI%20Delegation%20and%20Long-Horizon%20Reliability&url=https%3A%2F%2Fwww.microsoft.com%2Fen-us%2Fresearch%2Fblog%2Ffurther-notes-on-our-recent-research-on-ai-delegation-and-long-horizon-reliability%2F "Share on X")
[在 LinkedIn 上分享](https://www.linkedin.com/shareArticle?mini=true&url=https%3A%2F%2Fwww.microsoft.com%2Fen-us%2Fresearch%2Fblog%2Ffurther-notes-on-our-recent-research-on-ai-delegation-and-long-horizon-reliability%2F&title=Further%20Notes%20on%20Our%20Recent%20Research%20on%20AI%20Delegation%20and%20Long-Horizon%20Reliability&summary=Further%20Notes%20on%20Our%20Recent%20Research%20on%20AI%20Delegation%20and%20Long-Horizon%20Reliability&source=Microsoft%20Research "Share on LinkedIn")
[在 Reddit 上分享](http://www.reddit.com/submit?title=Further%20Notes%20on%20Our%20Recent%20Research%20on%20AI%20Delegation%20and%20Long-Horizon%20Reliability&url=https%3A%2F%2Fwww.microsoft.com%2Fen-us%2Fresearch%2Fblog%2Ffurther-notes-on-our-recent-research-on-ai-delegation-and-long-horizon-reliability%2F "Share on Reddit")
[订阅我们的 RSS 源](https://www.microsoft.com/en-us/research/feed/ "Subscribe to our RSS feed")

我们最近的论文《当你委托时，LLMs 会破坏你的文档》引发了关于 AI 系统在委托工作流中可靠性的讨论。我们感谢大家对此工作的关注，并希望澄清关于该论文所主张和未主张的几个要点。

这项研究旨在为长程委托和协作任务开发稳健的评估方法。更广泛地说，这项工作反映了我们持续努力，以更好地理解强大基准测试性能与某些现实世界任务之间的差距。通过使用受控的评估方法，我们检验了信息在这些扩展工作流中的保存情况。在这种受限的设置中，我们观察到模型在重复编辑过程中可能会累积保真度下降。然而，请注意，当前的生产系统可以通过验证循环、编排和特定领域工具来缓解这些影响。

我们的目标并非反对在专业工作流程中使用 AI 系统，而是旨在识别当前系统在哪些方面需要进一步的研究和工程改进，以帮助它们成为更值得信赖的协作者。这个基准旨在作为一种诊断工具，用于检查委托模式，而不是衡量整体模型能力、任务成功率或用户成果。

主要发现

该论文评估了一种我们称之为委托工作的特定交互模式——即用户委托 AI 系统对重要工件（如文档、电子表格、代码或结构化文件）进行多步骤修改，且在步骤之间仅有有限的人工验证。

我们使用链式转换与反转任务来评估语义内容在扩展的委托工作流程中是否被准确保留。我们的评估使用特定领域的语义解析，专注于对底层工件有意义的更改，而非表面的格式或风格差异。因此，我们报告的错误对应于底层语义内容的退化，但我们对“损坏”的衡量并不包括任务完成度或用户满意度。

使用这种方法，我们发现当前的前沿模型在长周期工作流程中可能会引入稀疏但后果严重的错误，并且这些错误可能在重复交互中累积。在所有评估场景中，强大的最先进模型在经过 20 次委托迭代后，工件的保真度大约下降了 19% 到 34%。值得注意的是，Python 工作流程通常在扩展的委托交互下表现出更强的鲁棒性，平均退化率低于 1%。

聚焦：AI 赋能的体验

Microsoft Research Copilot 体验

通过我们 AI 赋能的体验，深入了解微软的研究

立即开始

在新标签页中打开

方法论局限性

DELEGATE-52 被有意设计为对长周期委托执行的压力测试。该基准评估系统是否能在连续的转换和反转序列中保持工件的完整性。

本研究特别关注步骤之间人工干预有限的委托执行。它并不试图衡量现实世界中 AI 部署的全部情况，其中许多部署涉及更多的监督、验证和工作流程结构。

该论文还评估了一个简化的、具备工具使用能力（如 Python 执行和文件操作）的智能体框架。虽然这种设置并未消除观察到的退化现象，但它不应被解释为代表针对特定工作流程或企业领域优化的生产级系统。

启示

我们认为这项工作的主要启示在于，可靠的长期委托仍然是一个重要的开放性研究和工程挑战。

结果表明，仅凭强大的短期基准测试性能可能无法保证在扩展的工作流程中进行可靠的委托执行。同时，这些发现不应被解释为 AI 系统在当前现实工作中缺乏实用价值的证据。

在实践中，许多已部署的 AI 系统将模型与专门的框架、编排层、检索系统、验证程序、记忆机制以及人工监督相结合，旨在提高可靠性并交付有用的用户成果，尽管底层模型存在局限性。我们预计，随着模型、工作流程感知训练、记忆系统和生产级智能体框架的持续改进，这些故障模式将随着时间的推移进一步减少。

在新标签页中打开

认识作者

Philippe Laban

高级研究员

了解更多

Tobias Schnabel

首席研究员

了解更多

Jennifer Neville

合伙人研究经理

了解更多

研究领域

![Image 7 人工智能](https://www.microsoft.com/en-us/research/research-area/artificial-intelligence/)

我们近期关于AI委托与长期可靠性的研究补充说明

TL;DR · AI 摘要

核心要点

结构提纲

思维导图

金句 / Highlights

关于我们近期 AI 委托与长程可靠性研究的补充说明 - Microsoft Research

Microsoft 研究院博客

关于我们近期 AI 委托与长程可靠性研究的进一步说明

主要发现

Microsoft Research Copilot 体验

方法论局限性

启示

相关出版物

[委托时，大语言模型会损坏您的文档](https://www.microsoft.com/en-us/research/publication/llms-corrupt-your-documents-when-you-delegate/)

认识作者

Philippe Laban

Tobias Schnabel

Jennifer Neville

研究领域

相关实验室

最新动态

Microsoft Store

教育

企业

开发者和 IT

公司