T

traeai

登录

返回首页

Philipp Schmid(@_philschmid)2026年5月27日

有趣的新的 SWE/代理基准测试 (DeepSWE) 昨天发布了。113 个任务分布在 91 个仓库中...

7.5Score

有趣的新的 SWE/代理基准测试 (DeepSWE) 昨天发布了。113 个任务分布在 91 个仓库中...

TL;DR · AI 摘要

DeepSWE 是一个新的软件工程师/代理基准测试，包含 113 个任务和 91 个仓库，支持 5 种语言。评估框架 mini-swe-agent 给所有模型相同的单个 bash 工具和相同的 SI，不涉及供应商编辑原语。

核心要点

DeepSWE 包含 113 个任务和 91 个仓库，支持 5 种语言。
评估框架 mini-swe-agent 提供统一的 bash 工具和 SI。
mini-swe-agent 不涉及供应商编辑原语。

结构提纲

按章节快速跳转。

§介绍 DeepSWE
DeepSWE 是一个新的软件工程师/代理基准测试。
·任务和仓库数量
包含 113 个任务和 91 个仓库，支持 5 种语言。
§评估框架 mini-swe-agent
评估框架 mini-swe-agent 提供统一的 bash 工具和 SI。
·bash 工具和 SI
给所有模型相同的单个 bash 工具和相同的 SI。
·不涉及供应商编辑原语
mini-swe-agent 不涉及供应商编辑原语。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

DeepSWE
- 任务和仓库数量
  - 113 个任务
  - 91 个仓库
  - 5 种语言
- 评估框架 mini-swe-agent
  - bash 工具
  - SI
  - 不涉及供应商编辑原语

金句 / Highlights

值得收藏与分享的关键句。

DeepSWE 包含 113 个任务和 91 个仓库，支持 5 种语言。
— 第 1 段
⬇︎ 下载 PNG 𝕏 分享到 X
评估框架 mini-swe-agent 给所有模型相同的单个 bash 工具和相同的 SI。
— 第 2 段
⬇︎ 下载 PNG 𝕏 分享到 X
mini-swe-agent 不涉及供应商编辑原语。
— 第 2 段
⬇︎ 下载 PNG 𝕏 分享到 X

#DeepSWE#软件工程师#代理基准测试

打开原文

评估框架（mini-swe-agent）给每个模型提供一个单一的 Bash 工具和相同的 SI。没有供应商编辑原语。