🎙️ How I AI: Claude Fable 5 review & How Braintrust uses AI agents, evals, and CI to ship better software

Lenny's Newsletter

Lenny's Newsletter2026年6月15日

🎙️ How I AI: Claude Fable 5 review & How Braintrust uses AI agents, evals, and CI to ship better software

8.5Score

TL;DR · AI 摘要

Claude Fable 5 在多项基准测试中表现优异，但其高昂成本和部分任务表现不佳可能影响实际应用。

核心要点

Fable 5 在 SWBench Pro 基准测试中达到 80%，显著优于 Opus 4.8、GPT-4.5 和 Gemini 3.1 Pro。
Fable 5 的输入和输出成本分别为每百万 token 10 美元和 50 美元，远高于其他模型。
Fable 5 在视觉任务（如 PDF 解析）表现优异，但在设计和文档编写任务中表现不佳。

结构提纲

按章节快速跳转。

§引言
介绍 Claude Fable 5 的发布背景及其在 AI 领域的重要性。
·Claude Fable 5 的性能评估
详细分析 Fable 5 在多个基准测试中的表现，包括其优势和不足。
›成本分析
讨论 Fable 5 的高昂成本及其对实际部署的影响。
·实际应用中的表现
分析 Fable 5 在视觉任务、文档编写和设计任务中的实际表现。
›设计任务的不足
指出 Fable 5 在设计任务中表现不佳的具体原因。
·模型的保守性
探讨 Fable 5 在执行任务时的保守性及其可能的根源。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

Claude Fable 5 评估
- 性能表现
  - SWBench Pro 基准测试 80%
  - 视觉任务表现优异
- 成本问题
  - 输入成本 10 美元/百万 token
  - 输出成本 50 美元/百万 token
- 实际应用中的不足
  - 文档编写难以解析
  - 设计任务表现差

金句 / Highlights

值得收藏与分享的关键句。

Fable 5 在 SWBench Pro 基准测试中达到 80%，显著优于 Opus 4.8、GPT-4.5 和 Gemini 3.1 Pro。
— 第 2 段
⬇︎ 下载 PNG 𝕏 分享到 X
Fable 5 的输入和输出成本分别为每百万 token 10 美元和 50 美元，远高于其他模型。
— 第 3 段
⬇︎ 下载 PNG 𝕏 分享到 X
Fable 5 在视觉任务（如 PDF 解析）表现优异，但在设计和文档编写任务中表现不佳。
— 第 5 段
⬇︎ 下载 PNG 𝕏 分享到 X

#AI#Claude#模型评估#Anthropic#软件开发

打开原文

🎙️ 我如何使用 AI：Claude Fable 5 + Ankur - 作者：Lenny Rachitsky

我如何使用 AI

🎙️ 我如何使用 AI：Claude Fable 5 评测及 Braintrust 如何使用 AI 代理、评估和 CI 来构建更好的软件

《我如何使用 AI》每周精选内容，来自 Lenny’s Podcast Network

Lenny Rachitsky

2026 年 6 月 15 日

Claude Fable 5 评测：新 Mythos 模型的正确之处（以及非常错误的地方）

现在在 YouTube • Spotify • Apple Podcasts 上收听

Claire 对 Claude Fable 5 进行了一系列真实世界的测试，这是 Anthropic 首个可供一般用户使用的 Mythos 级模型：产品规格、代理工作流程、设计任务、视觉任务和多代理协调。她分析了 Anthropic 的声明，指出模型在哪些方面确实取得了显著进步，以及在哪些方面令人惊讶地表现不足。

#### 最重要的结论：

Fable 5 是 Anthropic 首个达到一般可用性的 “Mythos 级” 模型，它在所有基准测试中都表现优异。它在 SWBench Pro 上达到了 80% 的成绩，显著优于 Opus 4.8、GPT-4.5 和 Gemini 3.1 Pro。Claire 发现该模型在某些特定领域表现出色，但在对日常产品工作至关重要的其他领域则表现不足。

该模型的设计成本较高：每百万个输入令牌 10 美元，每百万个输出令牌 50 美元。这比 Opus 的价格更高，且消耗令牌的速度大约是其他模型的两倍。你需要在何时部署这种级别的智能，以及何时使用更便宜的模型（如 Sonnet 或 Opus）处理简单任务之间进行策略性选择。

Fable 5 的表现就像一位“经验丰富的工程师”——这既是它的优势，也是它的弱点。它非常细致、自主，并会深入研究每一个问题的每个角落，以确保 120% 确定自己交付的是正确的东西。有时候，你可能需要一个稍微不那么细致、稍微“笨一点”的模型，才能快速交付有用的东西。

该模型在视觉任务方面表现出色，尤其是在文档格式和 PDF 解析方面。Claire 测试了它为她 7 岁的孩子创建手写练习表的功能，发现它显著优于 Opus 4.8——间距更合理，布局更清晰，留白更恰当。这种优势也适用于其他视觉任务，当你希望某物看起来美观或需要解析复杂文档时。

该模型在规格和 PRD 的写作方面几乎难以阅读。Claire 发现 Fable 5 生成的文档极其详细、技术性完整，几乎难以理解。它会陷入细节之中，生成大量密集的段落，并带有内部引用，使你难以看到整体的全貌。

在设计输出方面，结果令人震惊，至少对于一次性设计任务而言。当 Claire 要求 Fable 设计一个技能注册表时，它生成的设计非常糟糕：灰色、黑色、红色、简单的轮廓。这与模型的基准表现相比，是一个真正的意外。

该模型在执行方面较为保守，并且对“最小”一词的理解非常字面化。当 Claire 要求它交付一个能为客户带来价值的 MVP 时，Fable 生成的东西非常狭窄，实际上并不太有用。这种保守性可能源于模型内置的安全防护机制。

Fable 5 在网络安全、生物学、化学和蒸馏任务方面包含特定的保护措施。它不会完全阻止你，而是使用一种新的“回退”概念——如果你被归类到这些类别之一，它会优雅地回退到 Opus 4.8。Anthropic 报告称，95% 的会话都不会触发回退，并且他们仅保留 30 天的记录，以防止滥用。

多智能体协调在技术上是可行的，但目前还不稳定。Claire 对动态工作流程和子代理功能进行了大量测试，虽然有一些成功的多智能体运行案例，但也经常遇到停滞和错误。她离开电脑去走了一圈，回来后发现子代理在大约三小时后就停滞了。

关键见解：将模型的智能与任务的复杂性相匹配。Claire 建议在需要极端细节、长期规划和视觉任务的硬核技术问题上使用它。但对于前端工作、战略规划、规格说明和设计，生态系统中的其他模型会表现得更好，而且成本更低。

这是“婴儿 Mythos”，而不是完整的 Mythos 模型。Fable 5 有一些限制措施，而无限制的 Mythos 模型（仅限 Project Glasswing 合作伙伴使用）则没有这些限制。底层模型是相同的，但 Fable 经过调整，更加注重安全性和通用可用性。

#### 本集博客：

How I AI: 我对 Claude Fable 5 的诚实评价：https://www.chatprd.ai/how-i-ai/claude-fable-5-review

Braintrust 如何利用 AI 代理、评估和 CI 来打造更好的软件 | Ankur Goyal

由 Guru 带来 ——AI 真实性的分层结构 Persona ——适用于任何场景的可信身份验证

Claire 与 Braintrust 的创始人兼首席执行官 Ankur Goyal 进行了对话，探讨顶级工程团队如何利用 AI 代理、评估和 CI 来更快地打造更好的软件。他们讨论了为什么代理现在能够处理复杂的基础设施问题，如何判断哪些工作应放在“代理线”之下，以及为什么评估正在迅速成为现代版的 PRD。Ankur 的核心信息是：最好的团队不会仅仅使用 AI 来编写更多代码；他们会构建反馈循环、基准和系统，让 AI 提升产品本身的品质。

没有哪位员工工程师能像使用代理那样运行大量严格的基准测试。Ankur 强烈反对那些认为 AI 无法处理复杂问题的工程师。虽然模型在编写高度并发代码方面可能并不完美，但它们在运行详尽的实验方面表现出色——测试每种列存储格式、每种执行引擎、每种优化策略。代理提供的严谨程度令人难以置信，现在再也没有借口因为基准测试繁琐而跳过它们。

“代理线”不断上升，你需要识别出哪些内容位于其下方。许多看似需要人类判断的互动、决策和方向实际上属于“代理线”之下。如果你将会议中的信息交给代理，它是否能解决同样的问题？越来越多的答案是肯定的。最好的团队通过构建智能技能和集成，将“代理线”进一步提升，从而扩大代理可以自主处理的范围。

实际的质量永远胜过理论上的质量。理论上，一个拥有无限时间和专注力的人类工程师可能会比 AI 代理编写出更好的代码。但现实中，人类在几天后会失去上下文，对困难但繁琐的问题注意力会逐渐下降，并且会跳过那些本应运行的基准测试。AI 代理则能保持持续的专注，运行所有测试，并且可以连续几天或几周处理问题。AI 辅助工程的实际质量更高，是因为其持续的严谨性，而不是因为代码在理论上更好。

现在你可以解决比以往更复杂的技术难题。历史上，公司通常会避免进行重大的基础设施变更，因为测试替代方案的成本极高，而且未知的未知因素风险很大。借助 AI 代理，你可以全面测试六种不同的数据库解决方案，在生产规模的数据上运行数千个基准测试，并做出以前无法实现的平台迁移决策。当代理承担繁重工作时，深入技术工作的商业案例变得更容易实现。

同时运行四到六个前台代理——这是人类的并发限制。Ankur 运行不同的代理，分别处理不同的问题。这与大多数人能够管理的个人并发限制相匹配；你无法在超过这个数量的情况下有效地进行上下文切换。一些代理在本地运行，而其他代理则在云端基础设施上运行，并使用生产规模的数据。关键在于隔离：每个代理都有自己的环境、端口和服务。

评估（Evals）是现代的产品需求文档（PRD）——它们定义了成功的样子，而不是如何实现它。机器学习将编程从定义实现细节转变为定义成功标准。就像最好的 PRD 包含用户故事和示例一样，最好的评估也包含具体的测试用例和评分函数。不同之处在于，评估以可以自动衡量和改进的方式量化成功。这使你可以专注于结果，而让 AI 去解决实现问题。

投资于 CI，以获得更快前进的能力——它是 AI 驱动工程的平台。如今，每一位工程师都在构建一个平台，让代理（agents）完成过去需要工程师手动完成的工作。对于传统软件来说，这个平台就是 CI。如果你感觉速度受限，不要为了加快速度而推出低质量的产品。相反，暂停下来，改进 CI，从而安全地获得更快前进的能力。同样的原则也适用于 AI 产品：先构建评估（eval）流程，然后让代理在该系统内进行优化。

当代理失败时，关闭会话并改进评估，而不是大声责骂或贿赂。Ankur 的备用策略非常自律：他不会试图通过提示（prompt）来解决问题。他会关闭会话，改进评估标准或成功指标，然后重新开始。有时候，这意味着手动编写代码以更好地理解问题（例如，他曾在周末手动编写了一个 3000 行的评估代码，因为之前的“氛围编码”（vibe coding）已经让代码变得一团糟）。解决方案始终是更好的评估，而不是更好的提示。

#### 本期博客和详细的工作流程介绍：

博客：Ankur Goyal 的代理驱动基准测试和 AI 评估方法论 https://www.chatprd.ai/how-i-ai/ankur-goyals-playbook-for-agent-driven-benchmarking-and-ai-evals

工作流程：

↳ 如何通过人类反馈循环在 AI 系统中扩展专家判断：https://www.chatprd.ai/how-i-ai/workflows/how-to-scale-expert-judgment-in-ai-systems-with-a-human-feedback-loop

↳ 如何使用 AI 编码代理进行详尽的基础设施基准测试：https://www.chatprd.ai/how-i-ai/workflows/how-to-use-ai-coding-agents-for-exhaustive-infrastructure-benchmarking

如果你喜欢这些内容，请回复告诉我你最想深入了解的内容：AI 工作流程、招聘、增长、产品策略——任何内容都可以。

下周见，Lenny

P.S. 想在每一期发布时立即收到通知？在你最喜欢的播客应用中点击“关注”吧。