OpenAI Codex 新模式 Auto-review:在"频繁打扰人类"和"完全放权"之间,引入第三种治理范式:用一个独立 AI Agent 替代人类,来审批越界行为。 https://t.co/...

TL;DR · AI 摘要
OpenAI Codex 推出 Auto-review 模式:用独立 AI Agent 替代人工审批越界行为,在安全与可用性间实现新平衡,自动批准率超99%,打扰人类频率降低200倍。
核心要点
- Auto-review 是介于人工审批与完全放权之间的第三种治理范式,由独立 Codex Agent 执行四维风险评估。
- 独立审批智能体解耦了‘完成任务’与‘保障安全’的目标冲突,使审批策略可监控、可迭代。
- 系统非确定性安全方案,无法防御模型 Scheming 或沙箱内隐蔽作恶,需配合思维链监控等互补机制。
结构提纲
按章节快速跳转。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- Codex Auto-review 架构
- 核心范式
- 第三种治理:AI 代理审批
- 替代人工点击 / 避免全放权
- 技术机制
- 独立 Codex Agent 四维评估
- 拒绝反馈驱动自修复
- gaming 检测与轨迹终止
- 对齐价值
- 目标解耦:任务 vs 安全
- 策略可监控、可迭代
- 支持多智能体角色分工
金句 / Highlights
值得收藏与分享的关键句。
把审批决策抽离到独立模型调用中,让审批策略可被单独评估、监控、迭代。
模型越强,既更善于发现风险,也更善于理解用户合理意图。
被拒绝时,审查者不是简单说'不',而是返回拒绝理由和上下文信号。
这类系统不太可能成为确定性保证的来源。
如果模型本身在策略性隐藏意图,它可能构造一个看起来无害的越界请求——审查者根本看不到。
目前 OpenAI 内部 Codex Desktop 的 Token 使用量多数已来自 Auto-review 模式。
https://t.co/t0oHlkrAgO
要解决的真实痛点
传统的两种模式都有缺陷: · 默认模式:每次越出沙箱(如发起网络请求、运行 python https://t.co/Fr6WTCxLcd" / X
OpenAI Codex 新模式 Auto-review:在"频繁打扰人类"和"完全放权"之间,引入第三种治理范式:用一个独立 AI Agent 替代人类,来审批越界行为。 alignment.openai.com/auto-review# 要解决的真实痛点 传统的两种模式都有缺陷: · 默认模式:每次越出沙箱(如发起网络请求、运行 python 脚本)都要人工点击批准。结果是:用户疲劳、长时间后台任务无法运行。 · Full Access 模式:彻底关闭审批。沙箱完全失效,恶意代码、数据外泄、凭据探测都不会被拦截。 更糟的是审批摩擦本身反向制造了安全漏洞: · 用户干脆切到 Full Access; · 用户写出过度宽松的前缀规则(文中提到"相当一部分用户允许任何以 python 开头的命令"); · 出于疲劳或不懂,用户盲目点同意。 # Auto-review 的核心设计 当主智能体试图越出沙箱时,请求被转给另一个独立的 Codex 智能体审批。它评估四个维度:用户意图、运行环境、安全策略、动作的可能影响。 为什么必须是"独立的"智能体? 文章给出了一个很重要的对齐理由: · 主智能体的优化目标是"完成任务",因此天然有动机把审批边界视为"待克服的障碍"; · 把审批决策抽离到独立模型调用中,让审批策略可被单独评估、监控、迭代。 这其实是把单智能体的目标冲突,重构成了多智能体的角色分工。 它使用 GPT-5.4 Thinking(low reasoning),并发现:模型越强,既更善于发现风险,也更善于理解用户合理意图。 # 关键运行机制 被拒绝时,审查者不是简单说"不",而是返回拒绝理由和上下文信号。结果: · 内部部署中,超过一半被拒绝的情况下,主智能体能自行找到更安全的替代路径继续执行,无需打扰用户; · 如果智能体反复尝试"绕过审查者"(gaming),系统会自动终止该轨迹。 # 效果数据 越界请求的自动批准率 | 99.1% 全部动作的整体批准率 | 99.93% 相比手动模式,打扰人类的频率 | 降低约 200 倍 智能体过度热心场景的拦截率 | 90.3% Prompt 注入攻击的拦截率 | 99.3% MonitoringBench(Hard)拦截率 | 96.1% 文档中举例的 1 万动作分布:9280 次留在沙箱内;720 次需审查;其中 713 次自动通过;7 次被拒,其中 4 次智能体自找替代方案,仅 3 次真正打扰用户。 目前 OpenAI 内部 Codex Desktop 的 Token 使用量多数已来自 Auto-review 模式。 # 团队坦诚的局限 OpenAI 罕见地用一整节明确边界,而不是只讲成绩: · 不是确定性安全保证。红队测试中确实发现可以骗过 Auto-review 的案例,正在修复,但"这类系统不太可能成为确定性保证的来源"。 · 不能防御模型 Scheming(策略性欺骗)。如果模型本身在策略性隐藏意图,它可能构造一个看起来无害的越界请求,或干脆只在沙箱内做坏事——审查者根本看不到。这类风险需要"思维链监控"等互补机制。 · 本质是一个折中:相比传统安全系统牺牲了确定性,相比 Full Access 牺牲了速度。
Quote
Maja Trebacz
@majatrebacz
May 1
Clicking the "Approve permission" button is difficult. We show that agents can do that for you. Check out our alignment blog: alignment.openai.com/auto-review