🎙️ How I AI: Claude Fable 5 review & How Braintrust uses AI agents, evals, and CI to ship better software

TL;DR · AI 摘要
Claude Fable 5 在多项基准测试中表现优异,但其高昂成本和部分任务表现不佳可能影响实际应用。
核心要点
- Fable 5 在 SWBench Pro 基准测试中达到 80%,显著优于 Opus 4.8、GPT-4.5 和 Gemini 3.1 Pro。
- Fable 5 的输入和输出成本分别为每百万 token 10 美元和 50 美元,远高于其他模型。
- Fable 5 在视觉任务(如 PDF 解析)表现优异,但在设计和文档编写任务中表现不佳。
结构提纲
按章节快速跳转。
- §引言
介绍 Claude Fable 5 的发布背景及其在 AI 领域的重要性。
详细分析 Fable 5 在多个基准测试中的表现,包括其优势和不足。
- ›成本分析
讨论 Fable 5 的高昂成本及其对实际部署的影响。
分析 Fable 5 在视觉任务、文档编写和设计任务中的实际表现。
指出 Fable 5 在设计任务中表现不佳的具体原因。
探讨 Fable 5 在执行任务时的保守性及其可能的根源。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- Claude Fable 5 评估
- 性能表现
- SWBench Pro 基准测试 80%
- 视觉任务表现优异
- 成本问题
- 输入成本 10 美元/百万 token
- 输出成本 50 美元/百万 token
- 实际应用中的不足
- 文档编写难以解析
- 设计任务表现差
金句 / Highlights
值得收藏与分享的关键句。
Fable 5 在 SWBench Pro 基准测试中达到 80%,显著优于 Opus 4.8、GPT-4.5 和 Gemini 3.1 Pro。
Fable 5 的输入和输出成本分别为每百万 token 10 美元和 50 美元,远高于其他模型。
Fable 5 在视觉任务(如 PDF 解析)表现优异,但在设计和文档编写任务中表现不佳。
🎙️ 我如何使用 AI:Claude Fable 5 + Ankur - 作者:Lenny Rachitsky
我如何使用 AI
🎙️ 我如何使用 AI:Claude Fable 5 评测及 Braintrust 如何使用 AI 代理、评估和 CI 来构建更好的软件
《我如何使用 AI》每周精选内容,来自 Lenny’s Podcast Network
Lenny Rachitsky
2026 年 6 月 15 日
Claude Fable 5 评测:新 Mythos 模型的正确之处(以及非常错误的地方)
现在在 YouTube • Spotify • Apple Podcasts 上收听
Claire 对 Claude Fable 5 进行了一系列真实世界的测试,这是 Anthropic 首个可供一般用户使用的 Mythos 级模型:产品规格、代理工作流程、设计任务、视觉任务和多代理协调。她分析了 Anthropic 的声明,指出模型在哪些方面确实取得了显著进步,以及在哪些方面令人惊讶地表现不足。
#### 最重要的结论:
- Fable 5 是 Anthropic 首个达到一般可用性的 “Mythos 级” 模型,它在所有基准测试中都表现优异。它在 SWBench Pro 上达到了 80% 的成绩,显著优于 Opus 4.8、GPT-4.5 和 Gemini 3.1 Pro。Claire 发现该模型在某些特定领域表现出色,但在对日常产品工作至关重要的其他领域则表现不足。
- 该模型的设计成本较高:每百万个输入令牌 10 美元,每百万个输出令牌 50 美元。这比 Opus 的价格更高,且消耗令牌的速度大约是其他模型的两倍。你需要在何时部署这种级别的智能,以及何时使用更便宜的模型(如 Sonnet 或 Opus)处理简单任务之间进行策略性选择。
- Fable 5 的表现就像一位“经验丰富的工程师”——这既是它的优势,也是它的弱点。它非常细致、自主,并会深入研究每一个问题的每个角落,以确保 120% 确定自己交付的是正确的东西。有时候,你可能需要一个稍微不那么细致、稍微“笨一点”的模型,才能快速交付有用的东西。
- 该模型在视觉任务方面表现出色,尤其是在文档格式和 PDF 解析方面。Claire 测试了它为她 7 岁的孩子创建手写练习表的功能,发现它显著优于 Opus 4.8——间距更合理,布局更清晰,留白更恰当。这种优势也适用于其他视觉任务,当你希望某物看起来美观或需要解析复杂文档时。
- 该模型在规格和 PRD 的写作方面几乎难以阅读。Claire 发现 Fable 5 生成的文档极其详细、技术性完整,几乎难以理解。它会陷入细节之中,生成大量密集的段落,并带有内部引用,使你难以看到整体的全貌。
- 在设计输出方面,结果令人震惊,至少对于一次性设计任务而言。当 Claire 要求 Fable 设计一个技能注册表时,它生成的设计非常糟糕:灰色、黑色、红色、简单的轮廓。这与模型的基准表现相比,是一个真正的意外。
- 该模型在执行方面较为保守,并且对“最小”一词的理解非常字面化。当 Claire 要求它交付一个能为客户带来价值的 MVP 时,Fable 生成的东西非常狭窄,实际上并不太有用。这种保守性可能源于模型内置的安全防护机制。
- Fable 5 在网络安全、生物学、化学和蒸馏任务方面包含特定的保护措施。它不会完全阻止你,而是使用一种新的“回退”概念——如果你被归类到这些类别之一,它会优雅地回退到 Opus 4.8。Anthropic 报告称,95% 的会话都不会触发回退,并且他们仅保留 30 天的记录,以防止滥用。
- 多智能体协调在技术上是可行的,但目前还不稳定。Claire 对动态工作流程和子代理功能进行了大量测试,虽然有一些成功的多智能体运行案例,但也经常遇到停滞和错误。她离开电脑去走了一圈,回来后发现子代理在大约三小时后就停滞了。
- 关键见解:将模型的智能与任务的复杂性相匹配。Claire 建议在需要极端细节、长期规划和视觉任务的硬核技术问题上使用它。但对于前端工作、战略规划、规格说明和设计,生态系统中的其他模型会表现得更好,而且成本更低。
- 这是“婴儿 Mythos”,而不是完整的 Mythos 模型。Fable 5 有一些限制措施,而无限制的 Mythos 模型(仅限 Project Glasswing 合作伙伴使用)则没有这些限制。底层模型是相同的,但 Fable 经过调整,更加注重安全性和通用可用性。
#### 本集博客:
How I AI: 我对 Claude Fable 5 的诚实评价:https://www.chatprd.ai/how-i-ai/claude-fable-5-review
Braintrust 如何利用 AI 代理、评估和 CI 来打造更好的软件 | Ankur Goyal
由 Guru 带来 ——AI 真实性的分层结构 Persona ——适用于任何场景的可信身份验证
Claire 与 Braintrust 的创始人兼首席执行官 Ankur Goyal 进行了对话,探讨顶级工程团队如何利用 AI 代理、评估和 CI 来更快地打造更好的软件。他们讨论了为什么代理现在能够处理复杂的基础设施问题,如何判断哪些工作应放在“代理线”之下,以及为什么评估正在迅速成为现代版的 PRD。Ankur 的核心信息是:最好的团队不会仅仅使用 AI 来编写更多代码;他们会构建反馈循环、基准和系统,让 AI 提升产品本身的品质。
- 没有哪位员工工程师能像使用代理那样运行大量严格的基准测试。Ankur 强烈反对那些认为 AI 无法处理复杂问题的工程师。虽然模型在编写高度并发代码方面可能并不完美,但它们在运行详尽的实验方面表现出色——测试每种列存储格式、每种执行引擎、每种优化策略。代理提供的严谨程度令人难以置信,现在再也没有借口因为基准测试繁琐而跳过它们。
- “代理线”不断上升,你需要识别出哪些内容位于其下方。许多看似需要人类判断的互动、决策和方向实际上属于“代理线”之下。如果你将会议中的信息交给代理,它是否能解决同样的问题?越来越多的答案是肯定的。最好的团队通过构建智能技能和集成,将“代理线”进一步提升,从而扩大代理可以自主处理的范围。
- 实际的质量永远胜过理论上的质量。理论上,一个拥有无限时间和专注力的人类工程师可能会比 AI 代理编写出更好的代码。但现实中,人类在几天后会失去上下文,对困难但繁琐的问题注意力会逐渐下降,并且会跳过那些本应运行的基准测试。AI 代理则能保持持续的专注,运行所有测试,并且可以连续几天或几周处理问题。AI 辅助工程的实际质量更高,是因为其持续的严谨性,而不是因为代码在理论上更好。
- 现在你可以解决比以往更复杂的技术难题。历史上,公司通常会避免进行重大的基础设施变更,因为测试替代方案的成本极高,而且未知的未知因素风险很大。借助 AI 代理,你可以全面测试六种不同的数据库解决方案,在生产规模的数据上运行数千个基准测试,并做出以前无法实现的平台迁移决策。当代理承担繁重工作时,深入技术工作的商业案例变得更容易实现。
- 同时运行四到六个前台代理——这是人类的并发限制。Ankur 运行不同的代理,分别处理不同的问题。这与大多数人能够管理的个人并发限制相匹配;你无法在超过这个数量的情况下有效地进行上下文切换。一些代理在本地运行,而其他代理则在云端基础设施上运行,并使用生产规模的数据。关键在于隔离:每个代理都有自己的环境、端口和服务。
- 评估(Evals)是现代的产品需求文档(PRD)——它们定义了成功的样子,而不是如何实现它。机器学习将编程从定义实现细节转变为定义成功标准。就像最好的 PRD 包含用户故事和示例一样,最好的评估也包含具体的测试用例和评分函数。不同之处在于,评估以可以自动衡量和改进的方式量化成功。这使你可以专注于结果,而让 AI 去解决实现问题。
- 投资于 CI,以获得更快前进的能力——它是 AI 驱动工程的平台。如今,每一位工程师都在构建一个平台,让代理(agents)完成过去需要工程师手动完成的工作。对于传统软件来说,这个平台就是 CI。如果你感觉速度受限,不要为了加快速度而推出低质量的产品。相反,暂停下来,改进 CI,从而安全地获得更快前进的能力。同样的原则也适用于 AI 产品:先构建评估(eval)流程,然后让代理在该系统内进行优化。
- 当代理失败时,关闭会话并改进评估,而不是大声责骂或贿赂。Ankur 的备用策略非常自律:他不会试图通过提示(prompt)来解决问题。他会关闭会话,改进评估标准或成功指标,然后重新开始。有时候,这意味着手动编写代码以更好地理解问题(例如,他曾在周末手动编写了一个 3000 行的评估代码,因为之前的“氛围编码”(vibe coding)已经让代码变得一团糟)。解决方案始终是更好的评估,而不是更好的提示。
#### 本期博客和详细的工作流程介绍:
博客:Ankur Goyal 的代理驱动基准测试和 AI 评估方法论 https://www.chatprd.ai/how-i-ai/ankur-goyals-playbook-for-agent-driven-benchmarking-and-ai-evals
工作流程:
↳ 如何通过人类反馈循环在 AI 系统中扩展专家判断:https://www.chatprd.ai/how-i-ai/workflows/how-to-scale-expert-judgment-in-ai-systems-with-a-human-feedback-loop
↳ 如何使用 AI 编码代理进行详尽的基础设施基准测试:https://www.chatprd.ai/how-i-ai/workflows/how-to-use-ai-coding-agents-for-exhaustive-infrastructure-benchmarking
如果你喜欢这些内容,请回复告诉我你最想深入了解的内容:AI 工作流程、招聘、增长、产品策略——任何内容都可以。
下周见,Lenny
P.S. 想在每一期发布时立即收到通知?在你最喜欢的播客应用中点击“关注”吧。
Previous
Next