T
traeai
登录
返回首页
meng shao(@shao__meng)

微软发布终端原生 Web Agent 框架:Webwright

8.5Score
微软发布终端原生 Web Agent 框架:Webwright

TL;DR · AI 摘要

微软发布了终端原生 Web Agent 框架 Webwright,采用“代码即动作”设计,让 LLM 写 Playwright 脚本,性能表现优异,适用于多种后端平台。

核心要点

  • Webwright 使用 LLM 写 Playwright 脚本,将网页操作变成可运行的 Python 程序。
  • Webwright 在 Online-Mind2Web 和 Odysseys 任务中的表现优于同类开源框架。
  • Webwright 支持多种后端平台,并且具有良好的可审计性和可复用性。

结构提纲

按章节快速跳转。

  1. 微软发布终端原生 Web Agent 框架 Webwright,采用“代码即动作”设计。

  2. Webwright 让 LLMPlaywright 脚本,将网页操作变成可运行的 Python 程序。

  3. 脚本、截图、日志保存在本地,浏览器会话可随时重建。

  4. 核心循环只有三个模块约 1000 行代码,无隐藏编排层。

  5. Webwright 在多个任务中表现出色,性能优于同类开源框架。

  6. Webwright 支持多种后端平台,并且具有良好的可审计性和可复用性。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • Webwright
    • 核心设计
      • 让 LLM 写 Playwright 脚本
    • 工作区即状态
      • 脚本、截图、日志保存在本地
    • 终端优先
      • 核心循环只有三个模块约 1000 行代码
    • 性能表现
      • Online-Mind2Web 和 Odysseys 任务表现优异
    • 产品化与集成
      • 支持多种后端平台

金句 / Highlights

值得收藏与分享的关键句。

#Webwright#Microsoft#LLM#Playwright#自动化
打开原文

https://t.co/k4lsns8Ck4

核心设计:代码即动作 传统网页智能体采用"观察→预测下一步点击→执行"的循环,每一步都依赖 LLM 判断。Webwright 的做法更贴近软件工程师思维: · 让 LLM 写 Playwright 脚本 —— 把网页操作变成可运行的 Python 程序 · https://t.co/OzHwi3trV8" / X

微软发布终端原生 Web Agent 框架:Webwrightgithub.com/microsoft/webw核心设计:代码即动作 传统网页智能体采用"观察→预测下一步点击→执行"的循环,每一步都依赖 LLM 判断。Webwright 的做法更贴近软件工程师思维: · 让 LLM 写 Playwright 脚本 —— 把网页操作变成可运行的 Python 程序 · 工作区即状态 —— 脚本、截图、日志保存在本地,浏览器会话可随时重建 · 终端优先 —— 核心循环只有三个模块约 1000 行代码,无隐藏编排层 这种模式产生的"副产物"是可复用的自动化程序,而非一次性交互痕迹。 性能表现:SOTA 水平 · Online-Mind2Web (300 任务):86.7% (GPT-5.4),同类开源框架中最高 · Odysseys (200 长程任务,平均 76.1 步):60.1% (GPT-5.4),较此前 SOTA (+15.6pt),较基线 GPT-5.4 (+26.6pt) · Claude Opus 4.7:84.7% / 难例 80.5%,难例上超越 GPT-5.4 架构极简 Runner (150行) -> Model Endpoint (550行) -> Environment (300行) · 仅依赖 httpx、pydantic、playwright、typer · 无多智能体系统、无图引擎、无插件层 · 支持 OpenAIAnthropicOpenRouter 后端 产品化与集成 · Claude Code:插件 /plugin install webwright@webwright,支持 /webwright:run 和 /webwright:craft · OpenAI Codex:插件市场安装,通过 @ webwright 调用 · OpenClaw / Hermes:共享 skills/webwright/ 目录,统一技能规范 关键创新点 · Task2UI 模式 (2026-05-11 新增) —— 任务完成后自动渲染为 HTML 应用,结果可视化且可重用 · 脚本可复用性 —— 即使是 Qwen-3.5-9B 这样的小模型,在预置工具脚本辅助下也能达到 66.2% 的难例完成率 · 可审计性 —— 每次运行都保存轨迹、截图、报告,便于调试和回归

Image 1: Image

Quote

Omar Shahine

@OmarShahine

23h

Need to try this. Hoping for massive boost over Playwright for browser automation. github.com/microsoft/webw

AI 可能会生成不准确的信息,请核实重要内容