SWEbench 最近有什么新动态？

traeai 已收录 2 篇与 SWEbench 相关的内容。最新一篇是「SWEbench is done.」，由 Matthew Berman 发布。

概念

SWEbench

一个用于评估大语言模型代码生成能力的基准测试。

已跟踪 2 条高相关材料

SWEbench is done.

Matthew Berman · 5.5 分

文章指出SWEbench基准测试的可信度受到质疑，因为GPT-5.5在DeepSuite测试中表现远超Claude Opus 4.7（70% vs 54%），而SWEbench上却出现反常结果，暗示其可能已失效或无法反映真实模型能力。

SWEbench is done.

Matthew Berman · 4.5 分

SWEbench benchmark is invalid as GPT 5.5 scores 70% on Deep Suite versus Opus 4.7's 54%, showing opposite trends in SWEbench, indicating un...

Matthew Berman6月2日212 字 (约 1 分钟)

文章质疑SWEbench基准测试的可信度，指出GPT-5.5在DeepSuite中表现远超Claude Opus 4.7，但SWEbench结果却显示相反，表明该测试可能已失效。

入选理由：SWEbench测试结果被质疑，GPT-5.5在DeepSuite中得分为70%，显著高于Claude Opus 4.7的54%。

精选视频#SWEbench#DeepSuite#GPT-5.5#Claude Opus#AI评估英文

Matthew Berman6月2日212 字 (约 1 分钟)

SWEbench 基准测试已失效，GPT 5.5 在 Deep Suite 上以 70% 准确率领先 Opus 4.7 的 54%，而 SWEbench 显示相反趋势，表明基准不可靠。

入选理由：GPT 5.5 achieves 70% accuracy on Deep Suite, significantly outperforming Opus 4.7 at 54%.

精选视频#SWEbench#Deep Suite#GPT#Opus#Gemini英文

回答基于：SWEbench 相关 2 条材料