Auggie 对比 Claude Code 基准测试：质量提升 33% 成本优势

Augment Code(@augmentcode)

Augment Code(@augmentcode)2026年5月18日

Auggie 对比 Claude Code 基准测试：质量提升 33% 成本优势

7.5内容质量

TL;DR · AI 摘要

Augment Code 发布的基准测试显示，其 AI 编程助手 Auggie 在使用 Opus 4.7 模型时，以 67.4% 的通过率略高于 Claude Code 的 66.3%，同时成本降低约 33%，这主要归功于其 Context Engine 语义索引技术实现的精准检索和 token 效率优化。

核心要点

Auggie 在 Terminal Bench 2.0 上以 67.4% vs 66.3% 的通过率略胜 Claude Code，同时 token 使用量减少
在 SWE-Bench Pro 基准测试中，Auggie 质量领先且每任务成本降低 23%，缓存读取减少 30%，输出 token 减少 37%
Auggie 与 GPT 5.5 组合可实现比 Claude Code 基线高 9.3% 的通过率，同时成本降低 54%

结构提纲

按章节快速跳转。

§TL;DR: Auggie vs Claude Code 基准测试结果
Auggie 在质量上以微弱优势领先 Claude Code，同时成本降低约 33%，主要得益于更精准的检索机制带来的 token 效率提升。
§规模化成本问题
随着前沿模型使用量激增，token 支出已成为董事会级别的议题，而 OpenAI 和 Anthropic 并无动机降低编码代理的运行成本。
§Terminal Bench 2.0 对比测试
在 GCP n4-highcpu-16 VM 上使用 Opus 4.7 对比测试显示，Auggie 通过率 67.4% 略高于 Claude Code 的 66.3%，缓存读取减少 32%，输出 token 减少 37%。
§SWE-Bench Pro 测试结果
在更具挑战性的 SWE-Bench Pro 基准测试中，Auggie 质量领先且每任务成本降低 23%，验证了相同模式的成本效率优势。
§Context Engine 技术优势
Augment 的语义索引技术通过精准检索减少模型探索次数和 token 消耗，与传统 grep 和关键词搜索的粗放式上下文组装形成鲜明对比。
§多模型灵活性
Auggie 不绑定单一模型提供商，测试显示 Auggie + GPT 5.5 可比 Claude Code 基线质量提升 9.3% 且成本降低 54%。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

Auggie vs Claude Code 基准测试
- 核心对比结果
  - 质量：67.4% vs 66.3%
  - 成本降低：33%
  - Token 减少：32%
- 技术优势
  - Context Engine 语义索引
  - 精准检索减少探索
  - 多模型灵活支持
- 基准测试套件
  - Terminal Bench 2.0
  - SWE-Bench Pro
  - 内部评估套件

金句 / Highlights

值得收藏与分享的关键句。

Auggie 在质量上以微弱优势领先（67.4% vs 66.3% 的通过率），同时成本降低约 33%，这主要得益于更精准的检索机制带来的 token 效率提升。
— TL;DR 部分
⬇︎ 下载 PNG 𝕏 分享到 X
缓存读取减少 32%，输出 token 减少 37%——这就是 Context Engine 的设计目标：减少浪费的探索，更少的昂贵轮次。
— Terminal Bench 2.0 结果
⬇︎ 下载 PNG 𝕏 分享到 X
Auggie + GPT 5.5 是质量优先选择：比 Claude Code 基线通过率提升 9.3%，同时成本降低 54%。
— 多模型对比
⬇︎ 下载 PNG 𝕏 分享到 X
大多数编码代理通过 grep 和关键词搜索组装上下文...代理浪费轮次爬取文件、阅读大段代码、引入无关匹配，只为找到真正重要的几行代码。
— Context Engine 优势
⬇︎ 下载 PNG 𝕏 分享到 X

#AI编程助手#基准测试#成本优化#Token效率#Augment Code

打开原文

标题：Augment Code on X: "Opus 4.7 节省 33%：Auggie 如何在成本和质量上击败 Claude Code" / X

URL 来源：https://x.com/augmentcode/status/2056406584700567836

Markdown 内容： TL;DR: 我们在 Opus 4.7 上对 Auggie 和 Claude Code 进行了基准测试。Auggie 在质量上略胜一筹（67.4% vs 66.3% 的通过率），同时成本降低约 33%，这得益于更精准的检索带来的 Token 效率。

Augment 的构建旨在为大型复杂代码库提供高质量结果。随着前沿模型的不断改进，工程领导者的问题已从"它能做到吗？"转变为"在我们这个规模下需要多少成本？"使用量正在爆发式增长，Token 支出已成为董事会层面的重要议题。由于 OpenAI 和 Anthropic 主导了前沿模型市场，两者都没有动力让编码代理的运行成本降低。对于 Augment 而言，Token 效率是一个关键的差异化和引以为傲的优势。下面我们展示了 Augment 的代理 Auggie 与 Claude Code 在 Opus 4.7 上的直接对比。核心结论：质量相当，成本降低 33%。结合 Augment 的技术优势，客户可以预期在使用最先进模型时节省高达 50% 的成本，同时获得相同质量的输出。

我们在 GCP n4-highcpu-16 虚拟机（16 个 vCPU，32 GB 内存）上，使用 Auggie CLI 和 Claude Code 进行了直接对比测试，采用 Opus 4.7 和默认设置。基准测试通过特定方法运行，每个任务尝试五次，四个任务并行执行。

相同模型，Token 减少 32%，支出降低 33%。

通过率差距（1.1%）处于任何单一基准测试运行中的正常波动范围内，但成本差距则不然。从下表可以看出节省的来源：Token 减少。缓存读取量（每轮重播的历史上下文量）下降了 32%，输出 Token 减少了 37%。这就是 Context Engine 和我们的测试框架的设计目标：减少浪费的探索，降低昂贵的轮次成本。

在 SWE-Bench Pro（一个广泛认可的编码任务基准测试）上，同样的模式依然成立。我们在相同的头对头设置上进行了测试，每个任务尝试三次，八个批次并行执行。

更具挑战性的基准测试，相同的模式：质量领先，每个任务成本降低 23%。

Auggie 在质量上略胜一筹，每次运行仍便宜 23%。

缓存读取量下降 30%，缓存写入量下降 17.0%，总 Token 数减少近三分之一，通过率略有提升。这与 Terminal Bench 2.0 的模式相同：更小、更精准的上下文减少了模型的工作量，并在运行结束时显著降低了成本。

大多数编码代理通过 grep 和关键词搜索来组装上下文。尽管这种方法的质量随着时间有所改进，但仍然效率低下：代理浪费轮次来爬取文件、读取大段代码，并引入不相关的匹配结果，只为找到真正重要的几行代码。每次失误都意味着另一轮往返，而每轮往返都消耗 Token。

Augment 的 Context Engine 和测试框架专为 Token 效率而设计。它维护着代码库的语义索引，不仅有助于大型复杂代码库的质量，从检索角度来看也更加高效。结果是更少的轮次、更少的 Token 使用，最终降低成本。

Auggie 不受单一模型提供商的限制。Context Engine 位于您选择的任何前沿模型之前，这意味着当您选择不同的模型时，同样的效率优势会叠加放大。以下是在 Terminal Bench 2.0 上与 Claude Code Opus 4.7 基线进行头对头测试的四种替代模型。

有两个模型表现突出：GPT 5.5 在质量上领先，GPT 5.4 在成本上领先。

每个模型都比 Claude Code 基线更便宜；其中三个模型的通过率相当或更好。

有两个配置尤为突出。Auggie + GPT 5.5 是质量之选：比 Claude Code 基线的通过率高出 9.3%，成本降低 54%。Auggie + GPT 5.4 是性价比之选：通过率相当，成本降低 73%。Auggie + Gemini 3.1 在两个维度上都处于中间位置。您可以根据自己的需求设定质量与成本的平衡点。

公共基准测试是一个有用的基线，但每个工程领导者真正想知道的问题是："这如何转化到我的代码库上？"我们对私有仓库和真实客户代码库进行了内部评估，模式依然成立。

在私有仓库上，模式与公共基准测试相同。

Claude Code 完成了 62 个任务；Auggie CLI 完成了 61 个任务——实际上是平手。但 Claude Code 每个通过任务花费 6.49 美元（总计 402 美元），而 Auggie 每个通过任务花费 3.90 美元（总计 238 美元）。使用相同的模型，在真实的代码库上，我们得到了与上述公共基准测试相同的结果模式。

上面的所有内容都在比较的两侧保持模型不变。使用 Prism——我们的新型模型路由器——你无需这样做。它在每次用户交互时进行评估，选择最适合提示词的模型——当工作需要时使用前沿模型，不需要时使用更便宜的替代方案，并通过缓存感知切换确保节省真正落地。在 Auggie 每个任务效率的基础上，Prism 在我们测量的工作负载上还能额外降低 20-30% 的成本，且对质量的影响微乎其微。

作者：Robbert Kauffman（Augment 解决方案架构师）和 Mayur Nagarsheth（Augment Code 解决方案架构主管）