我发现系统越大越大，AI 写的测试代码越不可靠。尤其是 E2E，单元测试好一点。

Viking(@vikingmute)

Viking(@vikingmute)2026年5月26日

我发现系统越大越大，AI 写的测试代码越不可靠。尤其是 E2E，单元测试好一点。

7.0内容质量

TL;DR · AI 摘要

作者发现系统越大越大，AI 写的测试代码越不可靠。尤其是 E2E，单元测试好一点。

核心要点

系统越大，AI 编写的测试代码越不可靠。
E2E 测试尤其容易出错。
生成大纲后仍需详细审查。

结构提纲

按章节快速跳转。

§背景
作者介绍自己对系统规模与 AI 编写测试代码可靠性的观察。
·问题描述
作者提到在使用 Claude 编写 TinyShip 的新 referral 功能测试时发现问题。
›具体案例
作者详细描述了使用 Claude 编写 E2E 测试时发现的问题。
·解决方案
作者提出了解决方案，即生成大纲后仍需详细审查。
›注意事项
作者提醒不要让 AI 一次性生成整个 E2E 测试，而是应拆分成多个小测试或步骤。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

AI 编写测试代码可靠性
- 系统规模与可靠性
  - E2E 测试问题
  - 单元测试相对较好
- 具体案例
  - 使用 Claude 编写 TinyShip referral 功能测试
- 解决方案
  - 生成大纲后详细审查
  - 拆分成多个小测试或步骤

金句 / Highlights

值得收藏与分享的关键句。

我发现系统越大越大，AI 写的测试代码越不可靠。尤其是 E2E，单元测试好一点。
— 第 1 段
⬇︎ 下载 PNG 𝕏 分享到 X
虽然它生成的大纲里面有，我简单的 review了一下，没有看详细的步骤，但是发现实现的时候有很多步骤居然都没有测试到，没有实现。
— 第 2 段
⬇︎ 下载 PNG 𝕏 分享到 X
还是不能偷懒，生成大纲以后还需要，分块生成 + 严格 Review，不要让它一次性生成整个 E2E 测试，拆成多个小测试或者多个步骤。
— 第 3 段
⬇︎ 下载 PNG 𝕏 分享到 X

#AI#测试#E2E#Claude#TinyShip

打开原文

TinyShip 的新 referral 功能我用 Claude写测试发现很有欺骗性，尤其是 e2e 它信誓旦旦的告诉我写了 “已完整实现所有逻辑”，其实有一部分逻辑根本就没写，我在手动的时候才发现。虽然它生成的大纲里面有，我简单的" / X

Viking on X: "我发现系统越大越大，AI 写的测试代码越不可靠。尤其是 E2E，单元测试好一点。 TinyShip 的新 referral 功能我用 Claude写测试发现很有欺骗性，尤其是 e2e 它信誓旦旦的告诉我写了 “已完整实现所有逻辑”，其实有一部分逻辑根本就没写，我在手动的时候才发现。虽然它生成的大纲里面有，我简单的" / X

Don’t miss what’s happening

Viking

@vikingmute

Show translation

我发现系统越大越大，AI 写的测试代码越不可靠。尤其是 E2E，单元测试好一点。 TinyShip 的新 referral 功能我用 Claude写测试发现很有欺骗性，尤其是 e2e 它信誓旦旦的告诉我写了 “已完整实现所有逻辑”，其实有一部分逻辑根本就没写，我在手动的时候才发现。虽然它生成的大纲里面有，我简单的 review了一下，没有看详细的步骤，但是发现实现的时候有很多步骤居然都没有测试到，没有实现。还是不能偷懒，生成大纲以后还需要，分块生成 + 严格 Review，不要让它一次性生成整个 E2E 测试，拆成多个小测试或者多个步骤。

1:37 PM · May 26, 2026

·

6,462 Views

38

2

12

22

Read 38 replies