Auggie 对比 Claude Code 基准测试:质量提升 33% 成本优势
TL;DR · AI 摘要
Augment Code 发布的基准测试显示,其 AI 编程助手 Auggie 在使用 Opus 4.7 模型时,以 67.4% 的通过率略高于 Claude Code 的 66.3%,同时成本降低约 33%,这主要归功于其 Context Engine 语义索引技术实现的精准检索和 token 效率优化。
核心要点
- Auggie 在 Terminal Bench 2.0 上以 67.4% vs 66.3% 的通过率略胜 Claude Code,同时 token 使用量减少
- 在 SWE-Bench Pro 基准测试中,Auggie 质量领先且每任务成本降低 23%,缓存读取减少 30%,输出 token 减少 37%
- Auggie 与 GPT 5.5 组合可实现比 Claude Code 基线高 9.3% 的通过率,同时成本降低 54%
结构提纲
按章节快速跳转。
Auggie 在质量上以微弱优势领先 Claude Code,同时成本降低约 33%,主要得益于更精准的检索机制带来的 token 效率提升。
随着前沿模型使用量激增,token 支出已成为董事会级别的议题,而 OpenAI 和 Anthropic 并无动机降低编码代理的运行成本。
在 GCP n4-highcpu-16 VM 上使用 Opus 4.7 对比测试显示,Auggie 通过率 67.4% 略高于 Claude Code 的 66.3%,缓存读取减少 32%,输出 token 减少 37%。
在更具挑战性的 SWE-Bench Pro 基准测试中,Auggie 质量领先且每任务成本降低 23%,验证了相同模式的成本效率优势。
Augment 的语义索引技术通过精准检索减少模型探索次数和 token 消耗,与传统 grep 和关键词搜索的粗放式上下文组装形成鲜明对比。
Auggie 不绑定单一模型提供商,测试显示 Auggie + GPT 5.5 可比 Claude Code 基线质量提升 9.3% 且成本降低 54%。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- Auggie vs Claude Code 基准测试
- 核心对比结果
- 质量:67.4% vs 66.3%
- 成本降低:33%
- Token 减少:32%
- 技术优势
- Context Engine 语义索引
- 精准检索减少探索
- 多模型灵活支持
- 基准测试套件
- Terminal Bench 2.0
- SWE-Bench Pro
- 内部评估套件
金句 / Highlights
值得收藏与分享的关键句。
Auggie 在质量上以微弱优势领先(67.4% vs 66.3% 的通过率),同时成本降低约 33%,这主要得益于更精准的检索机制带来的 token 效率提升。
缓存读取减少 32%,输出 token 减少 37%——这就是 Context Engine 的设计目标:减少浪费的探索,更少的昂贵轮次。
Auggie + GPT 5.5 是质量优先选择:比 Claude Code 基线通过率提升 9.3%,同时成本降低 54%。
大多数编码代理通过 grep 和关键词搜索组装上下文...代理浪费轮次爬取文件、阅读大段代码、引入无关匹配,只为找到真正重要的几行代码。
标题:Augment Code on X: "Opus 4.7 节省 33%:Auggie 如何在成本和质量上击败 Claude Code" / X
URL 来源:https://x.com/augmentcode/status/2056406584700567836
Markdown 内容: TL;DR: 我们在 Opus 4.7 上对 Auggie 和 Claude Code 进行了基准测试。Auggie 在质量上略胜一筹(67.4% vs 66.3% 的通过率),同时成本降低约 33%,这得益于更精准的检索带来的 Token 效率。
Augment 的构建旨在为大型复杂代码库提供高质量结果。随着前沿模型的不断改进,工程领导者的问题已从"它能做到吗?"转变为"在我们这个规模下需要多少成本?"使用量正在爆发式增长,Token 支出已成为董事会层面的重要议题。由于 OpenAI 和 Anthropic 主导了前沿模型市场,两者都没有动力让编码代理的运行成本降低。对于 Augment 而言,Token 效率是一个关键的差异化和引以为傲的优势。下面我们展示了 Augment 的代理 Auggie 与 Claude Code 在 Opus 4.7 上的直接对比。核心结论:质量相当,成本降低 33%。结合 Augment 的技术优势,客户可以预期在使用最先进模型时节省高达 50% 的成本,同时获得相同质量的输出。
我们在 GCP n4-highcpu-16 虚拟机(16 个 vCPU,32 GB 内存)上,使用 Auggie CLI 和 Claude Code 进行了直接对比测试,采用 Opus 4.7 和默认设置。基准测试通过特定方法运行,每个任务尝试五次,四个任务并行执行。
相同模型,Token 减少 32%,支出降低 33%。
通过率差距(1.1%)处于任何单一基准测试运行中的正常波动范围内,但成本差距则不然。从下表可以看出节省的来源:Token 减少。缓存读取量(每轮重播的历史上下文量)下降了 32%,输出 Token 减少了 37%。这就是 Context Engine 和我们的测试框架的设计目标:减少浪费的探索,降低昂贵的轮次成本。
在 SWE-Bench Pro(一个广泛认可的编码任务基准测试)上,同样的模式依然成立。我们在相同的头对头设置上进行了测试,每个任务尝试三次,八个批次并行执行。
更具挑战性的基准测试,相同的模式:质量领先,每个任务成本降低 23%。
Auggie 在质量上略胜一筹,每次运行仍便宜 23%。
缓存读取量下降 30%,缓存写入量下降 17.0%,总 Token 数减少近三分之一,通过率略有提升。这与 Terminal Bench 2.0 的模式相同:更小、更精准的上下文减少了模型的工作量,并在运行结束时显著降低了成本。
大多数编码代理通过 grep 和关键词搜索来组装上下文。尽管这种方法的质量随着时间有所改进,但仍然效率低下:代理浪费轮次来爬取文件、读取大段代码,并引入不相关的匹配结果,只为找到真正重要的几行代码。每次失误都意味着另一轮往返,而每轮往返都消耗 Token。
Augment 的 Context Engine 和测试框架专为 Token 效率而设计。它维护着代码库的语义索引,不仅有助于大型复杂代码库的质量,从检索角度来看也更加高效。结果是更少的轮次、更少的 Token 使用,最终降低成本。
Auggie 不受单一模型提供商的限制。Context Engine 位于您选择的任何前沿模型之前,这意味着当您选择不同的模型时,同样的效率优势会叠加放大。以下是在 Terminal Bench 2.0 上与 Claude Code Opus 4.7 基线进行头对头测试的四种替代模型。
有两个模型表现突出:GPT 5.5 在质量上领先,GPT 5.4 在成本上领先。
每个模型都比 Claude Code 基线更便宜;其中三个模型的通过率相当或更好。
有两个配置尤为突出。Auggie + GPT 5.5 是质量之选:比 Claude Code 基线的通过率高出 9.3%,成本降低 54%。Auggie + GPT 5.4 是性价比之选:通过率相当,成本降低 73%。Auggie + Gemini 3.1 在两个维度上都处于中间位置。您可以根据自己的需求设定质量与成本的平衡点。
公共基准测试是一个有用的基线,但每个工程领导者真正想知道的问题是:"这如何转化到我的代码库上?"我们对私有仓库和真实客户代码库进行了内部评估,模式依然成立。
在私有仓库上,模式与公共基准测试相同。
Claude Code 完成了 62 个任务;Auggie CLI 完成了 61 个任务——实际上是平手。但 Claude Code 每个通过任务花费 6.49 美元(总计 402 美元),而 Auggie 每个通过任务花费 3.90 美元(总计 238 美元)。使用相同的模型,在真实的代码库上,我们得到了与上述公共基准测试相同的结果模式。
上面的所有内容都在比较的两侧保持模型不变。使用 Prism——我们的新型模型路由器——你无需这样做。它在每次用户交互时进行评估,选择最适合提示词的模型——当工作需要时使用前沿模型,不需要时使用更便宜的替代方案,并通过缓存感知切换确保节省真正落地。在 Auggie 每个任务效率的基础上,Prism 在我们测量的工作负载上还能额外降低 20-30% 的成本,且对质量的影响微乎其微。
作者:Robbert Kauffman(Augment 解决方案架构师)和 Mayur Nagarsheth(Augment Code 解决方案架构主管)