开源我最近 Review AI Code 的 skills：review-forge

Viking(@vikingmute)

Viking(@vikingmute)2026年5月30日

开源我最近 Review AI Code 的 skills：review-forge

8.7内容质量

TL;DR · AI 摘要

作者开源 review-forge 工具链，通过多模型交叉评审、问题合成、人工决策、AI修复与验证闭环，有效控制AI生成代码失控风险。

核心要点

review-forge 使用 GPT-4.5、Compose2.5 和 DeepSeek-V4-Pro 三模型并行生成 bug 报告，实现盲区互补与交叉验证。
synthesis 阶段仅采纳多个模型共同指出的问题（如双模型一致项），准确率显著高于单模型评审。
修复环节采用“AI改+AI验”双模型轮询机制，并结合 status.md 实时追踪，形成可审计的闭环流程。

结构提纲

按章节快速跳转。

§AI代码失控风险与Review必要性
AI生成代码速度过快若缺乏干预，系统将迅速失去可控性，人工Review成为关键安全阀。
·review-forge 核心四阶段流程
流程包含 review（多模型独立报告）、synthesize（共识问题聚合）、fix（AI修复+测试）、verify（另一模型验证）四个自动化阶段。
·多模型交叉验证机制设计
使用 GPT-4.5、Compose2.5 和 DeepSeek-V4-Pro 三模型分别生成 bug 报告，利用模型盲区差异提升检出率。
·人工决策不可替代性
AI擅长发现问题但不擅权衡修复优先级，最终修复决策必须由开发者基于项目上下文完成。
›status.md 状态追踪与闭环验证
通过 status.md 文档持续记录问题状态，配合 verify 阶段实现修复可验证、可回溯的迭代闭环。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

review-forge：AI代码评审闭环流程
- 风险驱动
  - AI生成过快 → 系统失控
  - 长期无干预 → 架构腐化
- 四阶段流程
  - review：三模型独立报告（GPT-4.5/Compose2.5/DeepSeek-V4-Pro）
  - synthesize：共识问题聚合 → summary.md
  - fix：AI修复 + 测试验证
  - verify：另一模型复核 + status.md 更新
- 关键设计原则
  - 多模型盲区互补
  - 人工终审决策权保留
  - 状态可追溯（status.md）

金句 / Highlights

值得收藏与分享的关键句。

每个模型生成一份独立 bug 报告，两个模型都发现的问题基本就是铁板钉钉的真问题——这体现了多模型交叉验证的高置信度优势。
— 正文
⬇︎ 下载 PNG 𝕏 分享到 X
AI 擅长 review，但不擅长决策；后者需要人对整个项目的理解，需要权衡风险和收益，所以必须有我来做决定。
— 正文
⬇︎ 下载 PNG 𝕏 分享到 X
fix 阶段让一个模型修正问题并跑测试验证，verify 阶段换另一个模型验证是否修复，以此循环直到问题解决。
— 正文
⬇︎ 下载 PNG 𝕏 分享到 X

#AI编程#代码审查#多模型协作#review-forge#DevOps

打开原文

我现在越来越发现 Review 的重要性，因为 AI 代码产出太快了，假如长时间不干预，很快整个系统有可能都不受控制。

这个技能里面有这几个关键流程：

review：让不同的模型根据当前 diff 或者 branch 生成 bug" / X

Viking on X: "开源一个我最近 Review AI Code 流程的 skills， review-forge https://t.co/NWPo3d3PFs 我现在越来越发现 Review 的重要性，因为 AI 代码产出太快了，假如长时间不干预，很快整个系统有可能都不受控制。这个技能里面有这几个关键流程： review：让不同的模型根据当前 diff 或者 branch 生成 bug" / X

Don’t miss what’s happening

Viking

@vikingmute

Show translation

开源一个我最近 Review AI Code 流程的 skills， review-forge https://github.com/vikingmute/rev iew-forge… 我现在越来越发现 Review 的重要性，因为 AI 代码产出太快了，假如长时间不干预，很快整个系统有可能都不受控制。这个技能里面有这几个关键流程： review：让不同的模型根据当前 diff 或者 branch 生成 bug 报告，每个模型一份单独的报告。（目前我用 GPT5.5/ Compose2.5/ DeepSeek V4 Pro）。多模型 Review 在我长时间的实践中，发现是很重要的，因为每个模型都有自己的盲区，交叉验证。 synthesize：根据不同模型的 bug report，汇总生成一份summary.md 的报告，因为两个模型都发现的问题，基本就是铁板钉钉的真问题。手动Review 和决定修复哪些问题：因为问题一般很多，AI 擅长 review，但不擅长决策。后者需要人对整个项目的理解，需要权衡风险和收益，所以必须有我来做决定。 fix：让一个模型修正 summary 中的问题，并且跑测试验证。更新 status.md 文档 verify：让另外一个模型验证是否修复，更新 status.md，以此循环直到你需要的问题解决。最近在不断改进这套流程，对它感觉越来越好，我也是从Using AI to write better code more slowly 那篇文章进行不断实践的结果，如果希望让 AI 写得好，写的慢的可以参考一下这个流程。

![Image 2 GitHub - vikingmute/review-forge](https://t.co/NWPo3d3PFs)

From github.com

6:29 AM · May 30, 2026

·

7,679 Views

9

13

89

138

Read 9 replies