T
traeai
Sign in

概念

什么是 SWE-Bench

用于评估编程模型性能的基准测试集。

为什么现在值得关注?

最近变化

2026-06-10 · North Mini Code 使用 MoE 架构,参数规模为 30B 和 3B,每 token 激活 8 个专家。

SWE-Bench 被反复提及时,通常意味着它正在影响产品路线、开发者工作流或 AI 产业判断。这个页面把分散材料合并成一个可持续更新的观察入口。

📰 SWE-Bench 最新动态

已收录 5 篇与「SWE-Bench」相关的 AI 资讯和分析。

When AI Builds Itself: Our progress toward recursive self-improvement

When AI Builds Itself: Our Progress Toward Recursive Self-Improvement

Hacker News Best5602 字 (约 23 分钟)
92

Recursive self-improvement is accelerating; Anthropic data shows an 8x increase in engineer code output and AI reliable task duration doubling every 4 months, projecting week-long task capability by 2027.

入选理由:Anthropic工程师季度代码产出较2021-2025年均值提升8倍,AI已实质性加速研发。

FeaturedArticle#Recursive Self-Improvement#Anthropic#AI Agents#SWE-bench#METR英文
Cohere 发布首个开源编程模型「North Mini Code」

小参数、高效率、专做 Agent 编程
参数:MoE 架构(30B, 3B),128专家,每 token 激活 8 个
上下文:...

Cohere 发布开源编程模型 North Mini Code,采用 MoE 架构,专为 Agent 编程优化,性能接近大模型。

入选理由:North Mini Code 使用 MoE 架构,参数规模为 30B 和 3B,每 token 激活 8 个专家。

FeaturedTweet#Cohere#开源模型#编程模型#Agent#MoE中英混合
Can LLMs generate Enterprise Quality Code? — Prasenjit Sarkar, Sonar

Can LLMs Generate Enterprise Quality Code? — Prasenjit Sarkar, Sonar

AI Engineer3517 字 (约 15 分钟)
85

While LLMs achieve high functional pass rates (e.g., Gemini 3.1 Pro at 84.17%), Sonar’s evaluation of 4,444 Java tasks reveals critical maintainability and security flaws—614 bugs per million lines, verbose code, and high cyclomatic complexity.

入选理由:Gemini 3.1 Pro在SWE Bench测试中功能通过率达84.17%,但生成代码冗长(307,000行)且复杂度高(圈复杂度234)。

FeaturedVideo#LLM#Code Quality#Sonar#Enterprise Development英文
Import AI 图标

Import AI 455: AI systems are about to start building themselves.

Import AI2928 字 (约 12 分钟)
85

AI系统即将实现自我构建,预计到2028年可能实现无人参与的AI研发。

入选理由:无人参与的AI研发可能在2028年前实现,概率超60%

FeaturedArticle#AI#自动化#研发中文

与「SWE-Bench」经常一起出现的 AI 术语。

💡 想追踪「SWE-Bench」的长期趋势?去 实体雷达 · SWE-Bench 查看详细分析和跨材料问答。

AI may generate inaccurate information. Please verify important content.