T
traeai
登录
返回首页
elvis(@omarsar0)

Very interesting results from this NanoGPT-Bench eval.

6.2Score
Very interesting results from this NanoGPT-Bench eval.

TL;DR · AI 摘要

编码代理在AI研发任务中仅能恢复9.3%的人类进展,主要依赖超参数调优,忽视算法创新,表明当前AI代理尚未具备真实科研能力。

核心要点

  • Codex、Claude Code和Autoresearch在NanoGPT-Bench评估中仅恢复9.3%的人类科研进展。
  • 编码代理主要重复超参数调优,几乎未涉及算法层面的原创性研究。
  • IntologyAI发布的NanoGPT-Bench是首个针对AI研发任务的基准测试工具。

结构提纲

按章节快速跳转。

  1. 当前对自改进AI代理的热议缺乏对真实AI研发能力的实证评估。

  2. IntologyAI推出NanoGPT-Bench,用于衡量AI代理在AI研发任务中的表现。

  3. CodexClaude CodeAutoresearch在任务中仅恢复9.3%的人类科研进展。

  4. AI代理主要进行超参数调优,极少探索算法创新或结构改进。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • AI代理在AI研发中的表现
    • 评估工具
      • NanoGPT-Bench
    • 测试模型
      • Codex
      • Claude Code
      • Autoresearch
    • 核心发现
      • 仅恢复9.3%人类进展
      • 聚焦超参数调优
      • 忽略算法创新

金句 / Highlights

值得收藏与分享的关键句。

  • Codex, Claude Code, and Autoresearch recover only 9.3% of human progress in AI R&D tasks.

    Tweet text

    ⬇︎ 下载 PNG𝕏 分享到 X
  • Coding agents spend more of their time tuning hyperparameters than exploring algorithmic innovations.

    Tweet text

    ⬇︎ 下载 PNG𝕏 分享到 X
  • NanoGPT-Bench is an internal eval benchmark designed to test agents on AI R&D problems with months of human progress.

    Tweet text

    ⬇︎ 下载 PNG𝕏 分享到 X
#NanoGPT-Bench#Codex#Claude Code#Autoresearch#AI agents
打开原文

来自 elvis 在 X 上的帖子:“NanoGPT-Bench 评估结果非常有趣。

关于自我改进型代理的讨论很多,但编码代理真的能进行真正的 AI 研发吗?

@IntologyAI 报告称,Codex、Claude Code 和 Autoresearch 仅恢复了人类进展的 9.3%。编码代理将大部分时间花在……

引用

Image 1: 方形头像

Intology

@IntologyAI

16 小时前

编码代理能做研究吗?我们发布了 NanoGPT-Bench,这是一个内部评估工具,用于在具有数月人类进展的 AI 研发问题上测试代理。Codex、Claude Code 和 Autoresearch 仅恢复了人类进展的 9.3%,主要集中在调参上,而忽略了算法研究。

Image 2: 图片

AI 可能会生成不准确的信息,请核实重要内容