SWEbench 已经失效?
Matthew Berman212 字 (约 1 分钟)
55
文章质疑SWEbench基准测试的可信度,指出GPT-5.5在DeepSuite中表现远超Claude Opus 4.7,但SWEbench结果却显示相反,表明该测试可能已失效。
入选理由:SWEbench测试结果被质疑,GPT-5.5在DeepSuite中得分为70%,显著高于Claude Opus 4.7的54%。
精选视频#SWEbench#DeepSuite#GPT-5.5#Claude Opus#AI评估英文
