Very interesting results from this NanoGPT-Bench eval.
elvis(@omarsar0)152 字 (约 1 分钟)
62
编码代理在AI研发任务中仅能恢复9.3%的人类进展,主要依赖超参数调优,忽视算法创新,表明当前AI代理尚未具备真实科研能力。
入选理由:Codex、Claude Code和Autoresearch在NanoGPT-Bench评估中仅恢复9.3%的人类科研进展。
精选推文#NanoGPT-Bench#Codex#Claude Code#Autoresearch#AI agents英文
