T
traeai
登录
返回首页
Augment Code(@augmentcode)

Auggie 对比 Claude Code 基准测试:质量提升 33% 成本优势

7.5Score
Auggie 对比 Claude Code 基准测试:质量提升 33% 成本优势

TL;DR · AI 摘要

Augment Code 发布的基准测试显示,其 AI 编程助手 Auggie 在使用 Opus 4.7 模型时,以 67.4% 的通过率略高于 Claude Code 的 66.3%,同时成本降低约 33%,这主要归功于其 Context Engine 语义索引技术实现的精准检索和 token 效率优化。

核心要点

  • Auggie 在 Terminal Bench 2.0 上以 67.4% vs 66.3% 的通过率略胜 Claude Code,同时 token 使用量减少
  • 在 SWE-Bench Pro 基准测试中,Auggie 质量领先且每任务成本降低 23%,缓存读取减少 30%,输出 token 减少 37%
  • Auggie 与 GPT 5.5 组合可实现比 Claude Code 基线高 9.3% 的通过率,同时成本降低 54%

结构提纲

按章节快速跳转。

  1. §TL;DR: Auggie vs Claude Code 基准测试结果

    Auggie 在质量上以微弱优势领先 Claude Code,同时成本降低约 33%,主要得益于更精准的检索机制带来的 token 效率提升。

  2. 随着前沿模型使用量激增,token 支出已成为董事会级别的议题,而 OpenAI 和 Anthropic 并无动机降低编码代理的运行成本。

  3. §Terminal Bench 2.0 对比测试

    在 GCP n4-highcpu-16 VM 上使用 Opus 4.7 对比测试显示,Auggie 通过率 67.4% 略高于 Claude Code 的 66.3%,缓存读取减少 32%,输出 token 减少 37%。

  4. §SWE-Bench Pro 测试结果

    在更具挑战性的 SWE-Bench Pro 基准测试中,Auggie 质量领先且每任务成本降低 23%,验证了相同模式的成本效率优势。

  5. §Context Engine 技术优势

    Augment 的语义索引技术通过精准检索减少模型探索次数和 token 消耗,与传统 grep 和关键词搜索的粗放式上下文组装形成鲜明对比。

  6. Auggie 不绑定单一模型提供商,测试显示 Auggie + GPT 5.5 可比 Claude Code 基线质量提升 9.3% 且成本降低 54%。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • Auggie vs Claude Code 基准测试
    • 核心对比结果
      • 质量:67.4% vs 66.3%
      • 成本降低:33%
      • Token 减少:32%
    • 技术优势
      • Context Engine 语义索引
      • 精准检索减少探索
      • 多模型灵活支持
    • 基准测试套件
      • Terminal Bench 2.0
      • SWE-Bench Pro
      • 内部评估套件

金句 / Highlights

值得收藏与分享的关键句。

  • Auggie 在质量上以微弱优势领先(67.4% vs 66.3% 的通过率),同时成本降低约 33%,这主要得益于更精准的检索机制带来的 token 效率提升。

    TL;DR 部分

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 缓存读取减少 32%,输出 token 减少 37%——这就是 Context Engine 的设计目标:减少浪费的探索,更少的昂贵轮次。

    Terminal Bench 2.0 结果

    ⬇︎ 下载 PNG𝕏 分享到 X
  • Auggie + GPT 5.5 是质量优先选择:比 Claude Code 基线通过率提升 9.3%,同时成本降低 54%。

    多模型对比

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 大多数编码代理通过 grep 和关键词搜索组装上下文...代理浪费轮次爬取文件、阅读大段代码、引入无关匹配,只为找到真正重要的几行代码。

    Context Engine 优势

    ⬇︎ 下载 PNG𝕏 分享到 X
#AI编程助手#基准测试#成本优化#Token效率#Augment Code
打开原文

标题:Augment Code on X: "Opus 4.7 节省 33%:Auggie 如何在成本和质量上击败 Claude Code" / X

URL 来源:https://x.com/augmentcode/status/2056406584700567836

Markdown 内容: TL;DR: 我们在 Opus 4.7 上对 Auggie 和 Claude Code 进行了基准测试。Auggie 在质量上略胜一筹(67.4% vs 66.3% 的通过率),同时成本降低约 33%,这得益于更精准的检索带来的 Token 效率。

Augment 的构建旨在为大型复杂代码库提供高质量结果。随着前沿模型的不断改进,工程领导者的问题已从"它能做到吗?"转变为"在我们这个规模下需要多少成本?"使用量正在爆发式增长,Token 支出已成为董事会层面的重要议题。由于 OpenAI 和 Anthropic 主导了前沿模型市场,两者都没有动力让编码代理的运行成本降低。对于 Augment 而言,Token 效率是一个关键的差异化和引以为傲的优势。下面我们展示了 Augment 的代理 Auggie 与 Claude Code 在 Opus 4.7 上的直接对比。核心结论:质量相当,成本降低 33%。结合 Augment 的技术优势,客户可以预期在使用最先进模型时节省高达 50% 的成本,同时获得相同质量的输出。

我们在 GCP n4-highcpu-16 虚拟机(16 个 vCPU,32 GB 内存)上,使用 Auggie CLI 和 Claude Code 进行了直接对比测试,采用 Opus 4.7 和默认设置。基准测试通过特定方法运行,每个任务尝试五次,四个任务并行执行。

图片 1:图片

相同模型,Token 减少 32%,支出降低 33%。

通过率差距(1.1%)处于任何单一基准测试运行中的正常波动范围内,但成本差距则不然。从下表可以看出节省的来源:Token 减少。缓存读取量(每轮重播的历史上下文量)下降了 32%,输出 Token 减少了 37%。这就是 Context Engine 和我们的测试框架的设计目标:减少浪费的探索,降低昂贵的轮次成本。

图片 2:图片

在 SWE-Bench Pro(一个广泛认可的编码任务基准测试)上,同样的模式依然成立。我们在相同的头对头设置上进行了测试,每个任务尝试三次,八个批次并行执行。

图片 3:图片

更具挑战性的基准测试,相同的模式:质量领先,每个任务成本降低 23%。

Auggie 在质量上略胜一筹,每次运行仍便宜 23%。

图片 4:图片

缓存读取量下降 30%,缓存写入量下降 17.0%,总 Token 数减少近三分之一,通过率略有提升。这与 Terminal Bench 2.0 的模式相同:更小、更精准的上下文减少了模型的工作量,并在运行结束时显著降低了成本。

大多数编码代理通过 grep 和关键词搜索来组装上下文。尽管这种方法的质量随着时间有所改进,但仍然效率低下:代理浪费轮次来爬取文件、读取大段代码,并引入不相关的匹配结果,只为找到真正重要的几行代码。每次失误都意味着另一轮往返,而每轮往返都消耗 Token。

Augment 的 Context Engine 和测试框架专为 Token 效率而设计。它维护着代码库的语义索引,不仅有助于大型复杂代码库的质量,从检索角度来看也更加高效。结果是更少的轮次、更少的 Token 使用,最终降低成本。

Auggie 不受单一模型提供商的限制。Context Engine 位于您选择的任何前沿模型之前,这意味着当您选择不同的模型时,同样的效率优势会叠加放大。以下是在 Terminal Bench 2.0 上与 Claude Code Opus 4.7 基线进行头对头测试的四种替代模型。

图片 5:图片

有两个模型表现突出:GPT 5.5 在质量上领先,GPT 5.4 在成本上领先。

每个模型都比 Claude Code 基线更便宜;其中三个模型的通过率相当或更好。

有两个配置尤为突出。Auggie + GPT 5.5 是质量之选:比 Claude Code 基线的通过率高出 9.3%,成本降低 54%。Auggie + GPT 5.4 是性价比之选:通过率相当,成本降低 73%。Auggie + Gemini 3.1 在两个维度上都处于中间位置。您可以根据自己的需求设定质量与成本的平衡点。

公共基准测试是一个有用的基线,但每个工程领导者真正想知道的问题是:"这如何转化到我的代码库上?"我们对私有仓库和真实客户代码库进行了内部评估,模式依然成立。

图片 6:图片

在私有仓库上,模式与公共基准测试相同。

Claude Code 完成了 62 个任务;Auggie CLI 完成了 61 个任务——实际上是平手。但 Claude Code 每个通过任务花费 6.49 美元(总计 402 美元),而 Auggie 每个通过任务花费 3.90 美元(总计 238 美元)。使用相同的模型,在真实的代码库上,我们得到了与上述公共基准测试相同的结果模式。

上面的所有内容都在比较的两侧保持模型不变。使用 Prism——我们的新型模型路由器——你无需这样做。它在每次用户交互时进行评估,选择最适合提示词的模型——当工作需要时使用前沿模型,不需要时使用更便宜的替代方案,并通过缓存感知切换确保节省真正落地。在 Auggie 每个任务效率的基础上,Prism 在我们测量的工作负载上还能额外降低 20-30% 的成本,且对质量的影响微乎其微。

作者:Robbert Kauffman(Augment 解决方案架构师)和 Mayur Nagarsheth(Augment Code 解决方案架构主管)

AI 可能会生成不准确的信息,请核实重要内容