可信第三方评估的通用指南
OpenAI提出第三方可信评估的通用框架,强调评估必须明确声明测试主张、验证证据,并区分三类主张(能力激发/防护性能/对比),尤其指出“harness”(执行环境)对长流程任务评估结果有决定性影响。
入选理由:评估报告必须明确说明所测试的主张类型:能力激发、防护性能或系统对比,三者需匹配不同harness设计。
产品
别名:Codex
OpenAI开源的代码代理评估harness,用于标准化编程任务评估环境。
已跟踪 7 条高相关材料
最近变化
2026-05-29 · 评估报告必须明确说明所测试的主张类型:能力激发、防护性能或系统对比,三者需匹配不同harness设计。
为什么值得关注
Codex CLI 被反复提及时,通常意味着它正在影响产品路线、开发者工作流或 AI 产业判断。这个页面把分散材料合并成一个可持续更新的观察入口。
A shared playbook for trustworthy third party evaluations
OpenAI Blog · 9.2 分
OpenAI提出第三方可信评估的通用框架,强调评估必须明确声明测试主张、验证证据,并区分三类主张(能力激发/防护性能/对比),尤其指出“harness”(执行环境)对长流程任务评估结果有决定性影响。
Mole CLI v1.39.1 🦊 released, deep clean gets smarter and safer. mo clean: Trash empties without th...
Tw93(@HiTw93) · 8.5 分
Mole CLI v1.39.1 发布,新增对多个浏览器和应用的支持,优化清理速度和安全性。
https://t.co/ffV4apO5je
mem0(@mem0ai) · 8.5 分
文章详细介绍了Codex CLI中的记忆机制及其工作流程。
已收录 7 条与 Codex CLI 相关的内容,按评分排序。
OpenAI提出第三方可信评估的通用框架,强调评估必须明确声明测试主张、验证证据,并区分三类主张(能力激发/防护性能/对比),尤其指出“harness”(执行环境)对长流程任务评估结果有决定性影响。
入选理由:评估报告必须明确说明所测试的主张类型:能力激发、防护性能或系统对比,三者需匹配不同harness设计。
Mole CLI v1.39.1 发布,新增对多个浏览器和应用的支持,优化清理速度和安全性。
入选理由:Trash 清理不再受 macOS 警告对话框阻塞。
文章详细介绍了Codex CLI中的记忆机制及其工作流程。
入选理由:Codex CLI 使用固定markdown文件存储记忆,不使用SQLite或索引。
OpenAI的Codex CLI 0.128.0版本引入了/goal功能,允许用户设置目标,Codex将持续循环执行直至达成目标或令牌预算耗尽,类似于Ralph loop。
入选理由:新版本Codex CLI增加了/goal命令,实现持续任务执行至目标完成。
datasette 1.0a29 发布,新增实用方法和修复多个 Bug。
入选理由:新增 TokenRestrictions.abbreviated 方法创建 '_r' 字典。
开发者可用此 skill 自动生成脱敏版 AI 开发者 README,无需手动清理即可安全分享。
入选理由:该 skill 支持 Claude Code 和 Codex CLI,只需运行一次即可自动生成脱敏 README
文章介绍了如何通过修改配置文件和运行命令实现Codex CLI对Chatgpt的远程控制。
入选理由:通过修改~/.codex/config.toml添加[features]remote-control = true