我们近期关于AI委托与长期可靠性的研究补充说明

TL;DR · AI 摘要
微软研究院发布关于AI委托与长期可靠性研究的补充说明,但内容以导航链接为主,缺乏具体技术细节。
核心要点
- 文章主要为导航页面,未提供具体技术内容。
- 微软研究院的研究方向涵盖人工智能、系统、理论等多个领域。
- 文章未深入探讨AI委托或长期可靠性的具体机制或实验结果。
结构提纲
按章节快速跳转。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- 微软研究院研究概述
- 研究主题
- 人工智能
- 系统
- 理论
- 其他科学
- 研究资源
- 论文
- 代码与数据
- 人员信息
- 博客文章
金句 / Highlights
值得收藏与分享的关键句。
我们的研究提供了微软研究院在人工智能及其他领域工作的全面概述。
资源包括与微软研究院相关的论文、代码与数据、人员信息和博客文章。
研究领域被分为人工智能、系统、理论和其他科学等类别。
关于我们近期 AI 委托与长程可靠性研究的补充说明 - Microsoft Research

我们的研究
资源
研究领域:智能
研究领域:系统
研究领域:理论
研究领域:其他科学
项目与活动
学术项目活动与学术会议Microsoft Research Forum
联系与学习
Behind the Tech 播客Microsoft Research 博客Microsoft Research ForumMicrosoft Research 播客
关于
人员与新闻
其他实验室
更多
所有 Microsoft
技术与创新
行业
合作伙伴
资源
取消
搜索
Microsoft 研究院博客
关于我们近期 AI 委托与长程可靠性研究的进一步说明
发布日期:2026 年 5 月 15 日
作者:Philippe Laban,高级研究员 Tobias Schnabel,首席研究员 Jennifer Neville,合伙人研究经理
分享此页面
- [在 Facebook 上分享](https://www.facebook.com/sharer/sharer.php?u=https%3A%2F%2Fwww.microsoft.com%2Fen-us%2Fresearch%2Fblog%2Ffurther-notes-on-our-recent-research-on-ai-delegation-and-long-horizon-reliability%2F "Share on Facebook")
- [在 X 上分享](https://x.com/intent/tweet?text=Further%20Notes%20on%20Our%20Recent%20Research%20on%20AI%20Delegation%20and%20Long-Horizon%20Reliability&url=https%3A%2F%2Fwww.microsoft.com%2Fen-us%2Fresearch%2Fblog%2Ffurther-notes-on-our-recent-research-on-ai-delegation-and-long-horizon-reliability%2F "Share on X")
- [在 LinkedIn 上分享](https://www.linkedin.com/shareArticle?mini=true&url=https%3A%2F%2Fwww.microsoft.com%2Fen-us%2Fresearch%2Fblog%2Ffurther-notes-on-our-recent-research-on-ai-delegation-and-long-horizon-reliability%2F&title=Further%20Notes%20on%20Our%20Recent%20Research%20on%20AI%20Delegation%20and%20Long-Horizon%20Reliability&summary=Further%20Notes%20on%20Our%20Recent%20Research%20on%20AI%20Delegation%20and%20Long-Horizon%20Reliability&source=Microsoft%20Research "Share on LinkedIn")
- [在 Reddit 上分享](http://www.reddit.com/submit?title=Further%20Notes%20on%20Our%20Recent%20Research%20on%20AI%20Delegation%20and%20Long-Horizon%20Reliability&url=https%3A%2F%2Fwww.microsoft.com%2Fen-us%2Fresearch%2Fblog%2Ffurther-notes-on-our-recent-research-on-ai-delegation-and-long-horizon-reliability%2F "Share on Reddit")
- [订阅我们的 RSS 源](https://www.microsoft.com/en-us/research/feed/ "Subscribe to our RSS feed")
我们最近的论文《当你委托时,LLMs 会破坏你的文档》引发了关于 AI 系统在委托工作流中可靠性的讨论。我们感谢大家对此工作的关注,并希望澄清关于该论文所主张和未主张的几个要点。
这项研究旨在为长程委托和协作任务开发稳健的评估方法。更广泛地说,这项工作反映了我们持续努力,以更好地理解强大基准测试性能与某些现实世界任务之间的差距。通过使用受控的评估方法,我们检验了信息在这些扩展工作流中的保存情况。在这种受限的设置中,我们观察到模型在重复编辑过程中可能会累积保真度下降。然而,请注意,当前的生产系统可以通过验证循环、编排和特定领域工具来缓解这些影响。
我们的目标并非反对在专业工作流程中使用 AI 系统,而是旨在识别当前系统在哪些方面需要进一步的研究和工程改进,以帮助它们成为更值得信赖的协作者。这个基准旨在作为一种诊断工具,用于检查委托模式,而不是衡量整体模型能力、任务成功率或用户成果。
主要发现
该论文评估了一种我们称之为委托工作的特定交互模式——即用户委托 AI 系统对重要工件(如文档、电子表格、代码或结构化文件)进行多步骤修改,且在步骤之间仅有有限的人工验证。
我们使用链式转换与反转任务来评估语义内容在扩展的委托工作流程中是否被准确保留。我们的评估使用特定领域的语义解析,专注于对底层工件有意义的更改,而非表面的格式或风格差异。因此,我们报告的错误对应于底层语义内容的退化,但我们对“损坏”的衡量并不包括任务完成度或用户满意度。
使用这种方法,我们发现当前的前沿模型在长周期工作流程中可能会引入稀疏但后果严重的错误,并且这些错误可能在重复交互中累积。在所有评估场景中,强大的最先进模型在经过 20 次委托迭代后,工件的保真度大约下降了 19% 到 34%。值得注意的是,Python 工作流程通常在扩展的委托交互下表现出更强的鲁棒性,平均退化率低于 1%。
聚焦:AI 赋能的体验

Microsoft Research Copilot 体验
通过我们 AI 赋能的体验,深入了解微软的研究
在新标签页中打开
方法论局限性
DELEGATE-52 被有意设计为对长周期委托执行的压力测试。该基准评估系统是否能在连续的转换和反转序列中保持工件的完整性。
本研究特别关注步骤之间人工干预有限的委托执行。它并不试图衡量现实世界中 AI 部署的全部情况,其中许多部署涉及更多的监督、验证和工作流程结构。
该论文还评估了一个简化的、具备工具使用能力(如 Python 执行和文件操作)的智能体框架。虽然这种设置并未消除观察到的退化现象,但它不应被解释为代表针对特定工作流程或企业领域优化的生产级系统。
启示
我们认为这项工作的主要启示在于,可靠的长期委托仍然是一个重要的开放性研究和工程挑战。
结果表明,仅凭强大的短期基准测试性能可能无法保证在扩展的工作流程中进行可靠的委托执行。同时,这些发现不应被解释为 AI 系统在当前现实工作中缺乏实用价值的证据。
在实践中,许多已部署的 AI 系统将模型与专门的框架、编排层、检索系统、验证程序、记忆机制以及人工监督相结合,旨在提高可靠性并交付有用的用户成果,尽管底层模型存在局限性。我们预计,随着模型、工作流程感知训练、记忆系统和生产级智能体框架的持续改进,这些故障模式将随着时间的推移进一步减少。
在新标签页中打开
相关出版物
[委托时,大语言模型会损坏您的文档](https://www.microsoft.com/en-us/research/publication/llms-corrupt-your-documents-when-you-delegate/)
认识作者

Philippe Laban
高级研究员

Tobias Schnabel
首席研究员

Jennifer Neville
合伙人研究经理
研究领域
- 
相关实验室
关注我们:
分享此页面:
最新动态
- Surface Pro
- Surface Laptop
- Surface Laptop Studio 2
- 面向组织的 Copilot
- 面向个人使用的 Copilot
- Windows 中的 AI
- 探索 Microsoft 产品
- Windows 11 应用
Microsoft Store
教育
- Microsoft 在教育领域
- 教育设备
- Microsoft Teams for Education
- Microsoft 365 Education
- 如何为学校购买
- 教育工作者培训与发展
- 学生和家长优惠
- 教育领域 AI
企业
- Microsoft AI
- Microsoft Security
- Dynamics 365
- Microsoft 365
- Microsoft Power Platform
- Microsoft Teams
- Microsoft 365 Copilot
- 小型企业
开发者和 IT
公司
通知