产品

SWE-Bench

Q: SWE-Bench 最近有什么新动态？

traeai 已收录 9 篇与 SWE-Bench 相关的内容。最新一篇是「When AI Builds Itself: Our progress toward recursive self-improvement」，由 Hacker News Best 发布。

公开评测基准，测试 AI 编码智能体完成任务的能力。

已跟踪 9 条高相关材料

TraeAI 观察

如果只读 3 篇

When AI Builds Itself: Our progress toward recursive self-improvement

Hacker News Best · 9.2 分

AI递归自我改进正加速到来，Anthropic内部数据显示工程师代码产出提升8倍，模型可靠任务时长每4个月翻倍，预计2027年可处理周级任务。

Measuring What Matters with Jules

Google Developers Blog · 8.5 分

Jules 是一种衡量 AI 编码代理洞察力的新方法，通过分析真实修复的错误来评估其对更高目标的理解。

Google Labs 提出用"洞察策略"评估 AI 编码智能体的主动性

AI HOT 精选 · 8.5 分

Google Labs 提出用“洞察策略”评估 AI 编码智能体的主动性，而非仅按任务完成度打分，实验显示探索预算增加可显著提升准确率。

当AI构建自身：我们迈向递归自我改进的进展

Hacker News Best6月5日5602 字 (约 23 分钟)

AI递归自我改进正加速到来，Anthropic内部数据显示工程师代码产出提升8倍，模型可靠任务时长每4个月翻倍，预计2027年可处理周级任务。

入选理由：Anthropic工程师季度代码产出较2021-2025年均值提升8倍，AI已实质性加速研发。

精选文章#递归自我改进#Anthropic#AI智能体#SWE-bench#METR英文

Google Labs 提出用"洞察策略"评估 AI 编码智能体的主动性

AI HOT 精选6月22日1560 字 (约 7 分钟)

Google Labs 提出用“洞察策略”评估 AI 编码智能体的主动性，而非仅按任务完成度打分，实验显示探索预算增加可显著提升准确率。

入选理由：探索预算从两轮增至三轮时，Hit@5 准确率从 33% 升至 57%。

精选文章#AI#编码智能体#评估方法#Google Labs中文

Measuring What Matters with Jules

Google Developers Blog6月22日809 字 (约 4 分钟)

Jules 是一种衡量 AI 编码代理洞察力的新方法，通过分析真实修复的错误来评估其对更高目标的理解。

入选理由：Jules 使用真实修复的错误作为评估 AI 编码代理的基准。

精选文章#AI#编码代理#评估方法#Google英文

GLM 5.2 is live on Fireworks, day zero. 1M-token context, coding‑first frontier model, independently...

Fireworks AI(@FireworksAI_HQ)6月18日113 字 (约 1 分钟)

Fireworks AI 已上线 GLM 5.2 模型，支持 1M-token 上下文，专注于代码生成，并在多个基准测试中表现优异。

入选理由：GLM 5.2 支持 1M-token 上下文，适用于复杂任务。

精选推文#GLM#AI模型#Fireworks AI#代码生成英文

Chinese lab Z AI just released GLM-5.2, an impressive new open weights model with a 1M token context...

The Rundown AI(@TheRundownAI)6月17日191 字 (约 1 分钟)

Z AI 发布 GLM-5.2，支持 1M token 上下文窗口，性能超越 GPT-5.5 和 Opus 4.8。

入选理由：GLM-5.2 在长程编程任务中得分为 74.4，优于 GPT-5.5 的 72.6。

精选推文#GLM-5.2#AI模型#Z AI#开源英文

Cohere 发布首个开源编程模型「North Mini Code」小参数、高效率、专做 Agent 编程参数：MoE 架构(30B, 3B)，128专家，每 token 激活 8 个上下文：...

meng shao(@shao__meng)6月10日793 字 (约 4 分钟)

Cohere 发布开源编程模型 North Mini Code，采用 MoE 架构，专为 Agent 编程优化，性能接近大模型。

入选理由：North Mini Code 使用 MoE 架构，参数规模为 30B 和 3B，每 token 激活 8 个专家。

精选推文#Cohere#开源模型#编程模型#Agent#MoE中英混合

SWE-Bench style grading has been the standard for years now - you ask the agent to solve an issue an...

Scott Wu(@ScottWu46)6月10日239 字 (约 1 分钟)

FrontierCode 是一种新的代码评估基准，通过多维度评价模型生成代码的质量，显著减少误判并提升评估标准。

入选理由：FrontierCode 评估标准比传统单元测试更全面，涵盖代码风格、可维护性等维度。

精选推文#AI#代码评估#模型测试#开源英文

Can LLMs generate Enterprise Quality Code? — Prasenjit Sarkar, Sonar

LLM能生成企业级代码吗？——Prasenjit Sarkar, Sonar

AI Engineer6月1日3517 字 (约 15 分钟)

LLMs生成的代码虽功能通过率高（如Gemini 3.1 Pro达84.17%），但存在严重可维护性与安全缺陷，Sonar用4,444个Java任务评估发现其每百万行代码含614个bug，且代码冗长、复杂度高。

入选理由：Gemini 3.1 Pro在SWE Bench测试中功能通过率达84.17%，但生成代码冗长（307,000行）且复杂度高（圈复杂度234）。

精选视频#LLM#代码质量#Sonar#企业级开发英文

Import AI 455: AI systems are about to start building themselves.

Import AI5月9日2928 字 (约 12 分钟)

AI系统即将实现自我构建，预计到2028年可能实现无人参与的AI研发。

入选理由：无人参与的AI研发可能在2028年前实现，概率超60%

精选文章#AI#自动化#研发中文

跨材料问答 · SWE-Bench

回答基于：SWE-Bench 相关 9 条材料