T
traeai
登录
返回首页
Microsoft Research Blog

MagenticLite, MagenticBrain, Fara1.5: 专为小型模型优化的智能体体验

8.7Score
MagenticLite, MagenticBrain, Fara1.5: 专为小型模型优化的智能体体验

TL;DR · AI 摘要

微软研究院发布MagenticLite、MagenticBrain和Fara1.5三个组件,专为小型模型优化的智能体体验,通过协同设计实现浏览器和本地文件系统统一工作流,其中Fara1.5在网页导航性能上几乎翻倍提升。

核心要点

  • MagenticLite是下一代Magentic-UI,支持浏览器和本地文件系统统一工作流
  • Fara1.5是90亿参数计算机使用模型,在网页导航性能上几乎翻倍提升
  • MagenticBrain负责规划、编码和委托,实现小型模型的高效智能体任务

结构提纲

按章节快速跳转。

  1. MagenticLite是专为小型模型优化的智能体应用,结合重新设计的应用程序和针对小模型优化的框架。

  2. MagenticBrain负责推理、委托和终端使用,Fara1.5是计算机使用模型家族,专门处理基于浏览器的任务。

  3. 通过协同设计工具、小型模型和优化执行框架,探索如何在小模型上推动智能体性能的极限。

  4. 从训练数据到模型设计再到编排,整个生命周期需要重新设计,而非孤立地进行改进。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • MagenticLite智能体体验
    • 核心组件
      • MagenticLite应用
      • MagenticBrain模型
      • Fara1.5模型
    • 技术特点
      • 小模型优化
      • 统一工作流
      • 本地数据处理
    • 性能指标
      • 90亿参数模型
      • 网页导航翻倍性能
      • SOTA结果

金句 / Highlights

值得收藏与分享的关键句。

  • Fara1.5是90亿参数旗舰模型,设置小型计算机使用模型的新SOTA结果,在网页导航性能上几乎是Fara-7B的两倍。

    Included in this release

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 项目围绕一个关键研究假设构建:智能体能力依赖于工具编排和行动而不仅仅是知识本身。

    The project is built around a key research bet

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 该代理运行高效,将数据保留在用户机器上,并支持广泛的智能体任务,指向更广泛的目标:能够在用户硬件上直接运行的能力强大的代理。

    The result is an agent that runs efficiently

    ⬇︎ 下载 PNG𝕏 分享到 X
#Microsoft Research#Agentic AI#Small Models#Fara1.5#MagenticLite
打开原文
图片 1: MagenticLite

概览

  • MagenticLite 是一个代理应用程序,在单个工作流程中跨浏览器和本地文件系统工作。作为 Magentic-UI 的下一代产品,它结合了重新设计的应用程序和针对小模型优化的框架。
  • MagenticBrain 和 Fara1.5 是分别为编排和计算机使用任务设计的小型模型。Fara1.5 是 Fara 的下一次迭代,在真实世界的浏览器任务上实现了可衡量的提升。
  • 这些发布版本共同探索了如何通过更小的模型、协同设计的工具和优化的执行框架来推动代理性能的极限。

今天,微软研究院 AI 前沿实验室发布了 MagenticLite(在新标签页中打开),这是一款为小型模型设计的实验性代理应用程序。作为 Magentic-UI 的下一代产品,它在单个工作流程中跨浏览器和本地文件系统工作。

MagenticLite 由两个专门构建的模型驱动:MagenticBrain 用于推理、委托和终端使用,以及 Fara1.5,这是一个用于基于浏览器任务的计算机使用模型系列。这三个组件被设计为作为一个单一系统协同工作。结果是一个运行高效、将数据保留在用户机器上并支持广泛代理任务的代理。它还指向一个更广泛的目标:能够在用户硬件上直接运行的强大代理。

该项目围绕一个关键研究假设构建:代理能力依赖于工具编排和操作而不仅仅是知识本身。这一洞察使得使用较小模型的同时仍能以成本的一小部分实现广泛的代理任务成为可能。

MagenticLite 还反映了我们端到端处理代理 AI 的方式——从训练数据和模型设计到编排、交互设计以及整个体验过程中的人类监督。

图片 2: 图 1 – 一种体验,三个组件.png | 标题为

图 1. 一种体验,三个组件:MagenticLite、MagenticBrain 和 Fara1.5。

此次发布包含的内容

**MagenticLite**(在新标签页中打开)

Magentic-UI 的下一代产品,我们的实验性代理体验,由为小型模型重建的代理框架驱动,并根据社区反馈更新了用户界面。它在单个工作流程中跨用户的浏览器和本地文件系统工作。

[MagenticBrain(在新标签页中打开)](https://aka.ms/MagenticBrain-foundry)

MagenticBrain 是 MagenticLite 的规划者、编码者和委托者。它将模糊的请求转化为具体的计划,为每个步骤选择正确的工具或子代理,需要时编写代码,并在任务中途出现问题时进行恢复。

**Fara1.5**

我们计算机使用模型系列的下一代产品,Fara1.5 提供三种尺寸,旗舰版为 90 亿参数模型,适用于大多数用例。Fara1.5 在小型计算机使用模型中树立了新的最先进(SOTA)结果,在网页导航方面几乎将 Fara-7B 的性能翻倍,在表单处理、凭据网站和长时间运行任务方面具有更精确的处理能力。

每个组件单独使用都很有用,但它们一起工作效果最佳。协同设计应用程序、模型和框架能够在此规模上实现强大可靠的代理性能。

我们的研究方法:事半功倍

我们从一个简单的问题开始:让小型模型真正擅长代理任务需要什么?答案涵盖了整个生命周期——数据生成、训练目标、模型设计和编排必须一起重新设计,而不是孤立地进行。

我们从小型现实世界用例中识别需求,如填写表格、进行浏览器研究和管理本地文件,并围绕这些构建了评估数据集。标准基准测试捕捉到了部分情况,但它们并不总是对现实世界实用性进行直接测量。基于场景的评估补充了这些基准测试,成为跨模型和框架迭代改进的关键信号,如图 2 所示。

图片 3: 图 2 – 评估飞轮.png | 标题为

图 2. 构建代理系统的迭代过程包括定义成功标准、评估性能以及完善模型或系统设计(或两者)。然后重复。

对于用户体验,我们保留了 Magentic-UI 的关键元素,包括对代理推理和操作的可见性、用户直接控制的能力,以及在关键时刻的明确批准。基于最近的用户研究,我们还通过更新的浏览器和聊天视图使 MagenticLite 更易于学习和协作,旨在让用户更容易理解代理的操作并在需要时进行干预。这在图 3 中得到了说明。

图片 4:图 3 – MAGUI 新界面.png | MagenticLite 2.0.063 应用程序界面的截图。左侧边栏显示会话历史记录,包含任务名称和状态,其中一个活动任务以粉色高亮显示。中央面板显示正在进行的代理会话,包含操作的顺序日志——包括

图 3. MagenticLite 的界面包含更新的浏览器和聊天视图,旨在更轻松地理解代理操作并在需要时进行干预。

焦点:活动系列

图片 5:研究论坛 | 具有彩色六边形的抽象背景

微软研究院论坛

加入我们,持续交流关于通用 AI 时代的研究思想。观看最新的点播节目。

系统组件

Fara1.5:一款超越同级别性能的计算机使用模型

Fara1.5 是我们计算机使用模型家族的下一代产品,提供三种尺寸,其中旗舰级 9B 模型推荐用于大多数使用场景。Fara1.5 在小型计算机使用模型中实现了新的 SOTA 性能,在网页导航方面的表现几乎比 Fara-7B 提升了一倍,并且更好地处理表单、需要认证的网站和长时间运行的任务。

去年 11 月,我们发布了 Fara-7B,这是一款为在网页浏览器中完成任务而构建的小型代理模型。它使用一种新颖的合成数据生成引擎进行训练,实现了同类最佳性能。Fara1.5 是这一方向的下一步:基于 Qwen 3.5 的三个模型(4B、9B、27B),旨在弥补我们在前一版本中发现的差距。

新增功能

最先进的结果。在流行的 Online-Mind2Web 基准测试中,该基准包含跨广泛使用网络域的 300 个任务,Fara1.5 为其尺寸类别中的模型设定了新的 SOTA 结果。Fara1.5 超越了所有相似尺寸的模型,性能几乎是 Fara-7B 的两倍。更大的 Fara1.5-27B 变体在相同基准上实现了超过 90% 的性能。

图片 6:图 4 – Fara-1.5 最新结果.png | 一个条形图标题为

图 4. 在 OnlineMind2Web 基准测试中,Fara‑1.5-9B 在其尺寸类别模型中实现了最先进的性能,并显著超越了先前模型。

改进的用户体验。除了在基准测试中的改进外,我们还改进了 Fara1.5 的用户体验。用户应该能在日常任务中观察到更强的性能,比如填写表单、处理需要认证的网站登录以及预约安排。这些改进由我们 FaraGen 数据生成管道的下一阶段演进驱动。除了在实时网站上训练外,我们还在高度逼真的合成环境中训练模型,模拟登录和不可逆操作等场景。

针对长时间运行任务调优的原生动作空间。除了点击和键盘操作外,Fara1.5 还内置工具,可以在数百步操作中在其上下文中存储关键信息,并在需要时向用户请求许可或偏好,帮助其在持续数分钟实际工作的任务中保持连贯性。

重新校准的关键点。Fara-7B 经过训练可以检测交易、登录流程或不可逆提交等活动的关键点并进行标记。在 Fara1.5 中,我们根据实际使用的经验改进了关键点的设计,因此安全触发器仍会在适当时候出现,但不会阻止有用的任务,比如表单填写。

图片 7:图 5 – 关键点.png | Fara1.5 浏览器界面的截图,显示 LinkedIn 注册和登录页面的实时视图,可见邮箱和密码字段。浏览器面板下方是一个标题为

图 5. Fara1.5 在检测到关键点时暂停并请求用户干预,在此情况下是在使用邮箱凭证登录 LinkedIn 账户期间。

MagenticBrain:编排模型

MagenticBrain 是一个 14B 参数的编排模型——集规划者、编码者和委派者于一身。从 Qwen 3 14B 微调而来,MagenticBrain 在 MagenticLite 框架内进行了端到端训练,使用与推理时相同的工具模式和执行环境。因此,其学习如何编排的方式与其运行方式之间没有差距。

在许多代理系统中,编排(规划和协调)是最需要推理能力的组件,因此团队历来依赖他们最强大的模型来承担这一角色。我们的判断是小模型可以处理这一角色而不牺牲能力。两个设计选择使这成为可能。

第一个涉及结合多步骤工具调用轨迹——模型学会选择正确的工具并正确调用——与编码和终端轨迹——有时正确答案是五行 Python 代码,而不是工具调用。这与训练和推理期间使用的工具格式之间的紧密耦合相配合。

第二个是计算机使用代理(CUA)委托。编排器工作的关键部分是知道何时不亲自行动,而是将任务交给 Fara1.5。我们的数据管道包含明确的委托轨迹:编排器识别浏览器或用户界面(UI)任务,向 CUA 模型发出结构化交接,等待结果,然后继续执行任务。结果是一个编排模型能够在单个 14B 的模型中进行推理、编码、调用工具并灵活地进行委托。我们正在发布 MagenticBrain,它专为与 MagenticLite 配合使用而设计。

图片 8:图 6 – MagenticBrain.png | 说明 MagenticBrain 作为编排模型作用的流程图。顶部的一个框代表用户的自然语言请求:

图 6. MagenticBrain 是一个小的编排模型,可以将自然语言请求分解为更小的步骤,选择合适的工具,需要时编写代码,并将浏览器任务委托给 Fara1.5。

执行框架:为小模型构建

执行框架将编排器和浏览器使用模型结合到单一工作流程中。三个设计选择最为重要:

  • 逐步规划。执行框架采用增量规划,保持系统的灵活性,并在整个长时间运行的任务中实现更顺畅的路线校正和恢复。
  • 主动上下文管理。小模型的有效上下文窗口较小,随着上下文增长会更快退化。执行框架主动管理每个模型在每一步接收到的内容,保持提示专注,仅显示必要信息,将早期交互压缩成简洁摘要,并卸载其余部分,使编排器和 Fara1.5 在长时间任务中保持有效。
  • 通过子代理委托。执行框架不是依赖单一小模型处理所有任务,而是让编排器作为主代理并将专门工作委托给子代理。这意味着将浏览器任务交给 Fara1.5。这种模式发挥了小语言模型的优势,让每个模型处理问题中更窄、更专业化的部分。它也为未来扩展奠定了基础:后续版本可以引入额外的子代理并并行运行它们,以获得更丰富、更高效的工作流程。

执行框架保留了来自 Magentic-UI 1.0 的人工参与保证。浏览器和代码操作的关键点仍会暂停以等待明确的用户批准,整个系统在 Quicksand(在新标签页中打开) 内运行,这是一个为基于 QEMU 的沙箱创建的开源包装器,将浏览器会话和代码执行与主机系统隔离。

图片 9:图 7 – MagenticLite 架构图 | MagenticLite 的分层系统架构图,从上到下按四个标记部分组织。最顶层,用户界面,包含前端(React SPA)的四个组件:聊天(对话式任务输入)、实时浏览器(代理会话的 noVNC 流)、审批(人工参与门控)和文件(输入和生成输出)。下方通过 WebSocket 和 REST 连接的是编排层,包含代理执行框架(FastAPI + WebSocket)。它包括四个组件:编排(运行生命周期、流式传输)、上下文压缩(总结和修剪长上下文)、暂停/恢复(人工参与控制)和关键点(检测关键代码操作),其中黄色高亮显示以强调其重要性。下一层通过调度连接器到达,包含两个并行模型组件。左侧,MagenticBrain(14B 模型,紫色)处理推理、编码和委托,有两个子组件:推理循环(思考 → 工具 → 结果)和工具调度(bash、编辑、搜索、打开)。右侧,Fara 1.5(9B 模型,青色)处理网页导航和浏览器使用,有三个子组件:截图 → 操作(视觉驱动循环)、浏览器操作(导航、点击、输入、滚动)和关键点(表单、支付、登录)。一个标有

图 7. MagenticLite 架构概览。该系统使用分层架构,涵盖前端、执行框架、模型和沙箱执行环境。

观察实际演示

MagenticLite 可以在浏览器和本地文件系统中执行广泛的任务,例如填写表格、预约安排、整理本地文件以及搜索和分析信息。

视频 9

MagenticLite | 填写费用表格演示

视频 10

MagenticLite | 查找并预订餐厅演示

视频 11

MagenticLite | 查找食谱原料价格演示

视频 12

MagenticLite | 整理本地文件演示

尝试并与我们共建

MagenticLite、MagenticBrain 和 Fara1.5 是研究发布版本,旨在支持持续的探索和开发。我们发布它们是为了鼓励更广泛的社区进行实验、评估和反馈。

贡献者

AI 可能会生成不准确的信息,请核实重要内容

MagenticLite, MagenticBrain, Fara1.5: 专为小型模型优化的智能体体验 | Microsoft Research Blog | traeai