Philipp Schmid(@_philschmid)
有趣的新的 SWE/代理基准测试 (DeepSWE) 昨天发布了。113 个任务分布在 91 个仓库中...
7.5Score

TL;DR · AI 摘要
DeepSWE 是一个新的软件工程师/代理基准测试,包含 113 个任务和 91 个仓库,支持 5 种语言。评估框架 mini-swe-agent 给所有模型相同的单个 bash 工具和相同的 SI,不涉及供应商编辑原语。
核心要点
- DeepSWE 包含 113 个任务和 91 个仓库,支持 5 种语言。
- 评估框架 mini-swe-agent 提供统一的 bash 工具和 SI。
- mini-swe-agent 不涉及供应商编辑原语。
结构提纲
按章节快速跳转。
DeepSWE 是一个新的软件工程师/代理基准测试。
包含 113 个任务和 91 个仓库,支持 5 种语言。
评估框架 mini-swe-agent 提供统一的 bash 工具和 SI。
给所有模型相同的单个 bash 工具和相同的 SI。
mini-swe-agent 不涉及供应商编辑原语。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- DeepSWE
- 任务和仓库数量
- 113 个任务
- 91 个仓库
- 5 种语言
- 评估框架 mini-swe-agent
- bash 工具
- SI
- 不涉及供应商编辑原语
金句 / Highlights
值得收藏与分享的关键句。
DeepSWE 包含 113 个任务和 91 个仓库,支持 5 种语言。
评估框架 mini-swe-agent 给所有模型相同的单个 bash 工具和相同的 SI。
mini-swe-agent 不涉及供应商编辑原语。
#DeepSWE#软件工程师#代理基准测试
打开原文