T
traeai
登录
返回首页
Philipp Schmid(@_philschmid)

有趣的新的 SWE/代理基准测试 (DeepSWE) 昨天发布了。113 个任务分布在 91 个仓库中...

7.5Score
有趣的新的 SWE/代理基准测试 (DeepSWE) 昨天发布了。113 个任务分布在 91 个仓库中...

TL;DR · AI 摘要

DeepSWE 是一个新的软件工程师/代理基准测试,包含 113 个任务和 91 个仓库,支持 5 种语言。评估框架 mini-swe-agent 给所有模型相同的单个 bash 工具和相同的 SI,不涉及供应商编辑原语。

核心要点

  • DeepSWE 包含 113 个任务和 91 个仓库,支持 5 种语言。
  • 评估框架 mini-swe-agent 提供统一的 bash 工具和 SI。
  • mini-swe-agent 不涉及供应商编辑原语。

结构提纲

按章节快速跳转。

  1. DeepSWE 是一个新的软件工程师/代理基准测试。

  2. 包含 113 个任务和 91 个仓库,支持 5 种语言。

  3. 评估框架 mini-swe-agent 提供统一的 bash 工具和 SI。

  4. 给所有模型相同的单个 bash 工具和相同的 SI。

  5. mini-swe-agent 不涉及供应商编辑原语。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • DeepSWE
    • 任务和仓库数量
      • 113 个任务
      • 91 个仓库
      • 5 种语言
    • 评估框架 mini-swe-agent
      • bash 工具
      • SI
      • 不涉及供应商编辑原语

金句 / Highlights

值得收藏与分享的关键句。

#DeepSWE#软件工程师#代理基准测试
打开原文
  • 评估框架(mini-swe-agent)给每个模型提供一个单一的 Bash 工具和相同的 SI。没有供应商编辑原语。
图片 1:图片
图片 2:图片

AI 可能会生成不准确的信息,请核实重要内容