SWE-Marathon 最近有什么新动态？

traeai 已收录 1 篇与 SWE-Marathon 相关的内容。最新一篇是「[AINews] not much happened today」，由 Latent Space 发布。

论文

什么是 SWE-Marathon？

评测编码代理在 1B-token 预算下的连贯性。

[AINews] not much happened today

Latent Space · 6.3 分

已收录 1 篇与「SWE-Marathon」相关的 AI 资讯和分析。

Latent Space今天1494 字 (约 6 分钟)

本文主要梳理了近期 AI 领域的热点动态，包括 Anthropic 的 Mythos/Opus 讨论、RSI 研究的正式化、以及新型长周期评测基准的出现，强调前沿模型在可靠性与长周期任务上的不足。

入选理由：Anthropic 的 Opus 4.7 在某些化学任务上已匹配或超越专用 NMR 软件，显示模型在专业领域的潜力。

精选文章#AI 研究#自我改进#评测基准#Anthropic#Sakana AI中文

与「SWE-Marathon」经常一起出现的 AI 术语。

💡 想追踪「SWE-Marathon」的长期趋势？去实体雷达 · SWE-Marathon 查看详细分析和跨材料问答。