T
traeai
登录
返回首页
Vercel News

DeepSeek enters the fight for token volume, Anthropic continues to dominate spend

8.5Score

TL;DR · AI 摘要

DeepSeek 在 2026 年 5 月迅速增长至 AI Gateway 的第三大模型,但其花费占比仍低于 1%,Anthropic 仍主导高价值使用场景。

核心要点

  • DeepSeek 在 2026 年 5 月的 token 占比从不足 1% 跃升至 17%,成为 AI Gateway 第三大模型。
  • Anthropic 在 5 月的花费占比从 61% 增至 65%,主导所有高价值使用场景。
  • DeepSeek V4 Flash 的价格仅为 Anthropic 模型的 1/20 至 1/50,推动其快速采用。

结构提纲

按章节快速跳转。

  1. AI Gateway 每月处理数十万亿 token,揭示 AI 使用的真实情况。

  2. AI Gateway token 总量增长 20%,花费增长 43%,客户平均 token 成本上升 20%。

  3. ·DeepSeek 的崛起

    DeepSeek 在 5 月 token 占比从不足 1% 跃升至 17%,但花费占比仍低于 1%。

  4. ·Anthropic 的主导地位

    Anthropic 在 5 月花费占比从 61% 增至 65%,主导所有高价值使用场景。

  5. DeepSeek V4 的发布推动低成本模型首次大规模进入生产环境。

  6. 客户更注重模型选择,通过低成本与前沿模型的组合实现更高效的使用。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • AI Gateway 2026 年 5 月数据
    • Token 与花费增长
      • Token 增长 20%
      • 花费增长 43%
    • 模型市场份额
      • DeepSeek token 占比 17%
      • Anthropic 花费占比 65%
    • 低成本模型应用
      • DeepSeek V4 Flash 价格低
      • 推动低成本模型进入生产

金句 / Highlights

值得收藏与分享的关键句。

  • DeepSeek 在 2026 年 5 月的 token 占比从不足 1% 跃升至 17%,成为 AI Gateway 第三大模型。

    第 3 段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • Anthropic 在 5 月的花费占比从 61% 增至 65%,主导所有高价值使用场景。

    第 3 段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • DeepSeek V4 Flash 的价格仅为 Anthropic 模型的 1/20 至 1/50,推动其快速采用。

    第 6 段

    ⬇︎ 下载 PNG𝕏 分享到 X
#AI#模型#成本#DeepSeek#Anthropic
打开原文

DeepSeek 加入 token 用量竞争,Anthropic 仍主导支出 - Vercel

6 分钟阅读

复制链接

2026 年 6 月 8 日

每个月,AI Gateway 在生产应用和 AI 实验室之间路由数十万亿个 token,使我们能够直观地了解 AI 实际使用情况,而不仅仅是依赖排行榜和基准测试。我们每月发布 AI Gateway 生产指数,以公布这些数据。

2026 年 5 月摘要

  • AI Gateway 的总 token 数量环比增长了 20%,总支出环比增长了 43%。客户平均每个 token 的支出比 4 月份增加了近 20%。
  • DeepSeek 的 token 占比从不到 1% 在一个月内跃升至 17%,而其支出占比仍接近 1%。
  • Anthropic 的支出占比从 61% 增长至 65%,在所有高风险使用场景(AI 应用生成、后台代理和编码代理)中,其支出占比均保持在 70% 至 80% 之间。
  • 对成本的关注促使客户在低成本模型和前沿模型之间进行更智能的路由。客户更加明确地选择哪个模型执行哪项任务,而整体使用量仍在持续上升。

上个月,关于 token 预算被耗尽的新闻主导了科技新闻:Uber 在第一季度后不久就用完了年度 Claude Code 预算,而 Amazon 关闭了 KiroRank 以遏制无成效的 tokenmaxxing。尽管失控的成本确实是一个现实问题,但本月的报告显示,生产使用场景的支出仍在增加。

从 AI Gateway 的数据中,我们得出了两个重要见解:

  • 低成本模型进入生产:新模型以价格点推出,使现有实验室看起来更加昂贵,而且它们的能力足以进入生产环境。
  • 支出在增加,但模型组合更加智能:团队仍在增加 token 预算,但他们正在实施更智能的路由策略,以从每一美元中获得更大的价值。

低成本模型首次看到显著的生产用量

从 2 月到 4 月,AI Gateway 上各实验室的用量分布变化缓慢,但到了 5 月,DeepSeek V4 的发布完全改变了 token 的占比。在 4 月几乎不存在的低成本市场,在 5 月成为 AI Gateway 按用量计算的第三大供应商,而对整体支出的影响并不显著。

在 4 月,DeepSeek 在 AI Gateway 的 token 占比不到 1%,支出占比不到 0.2%。到了 5 月,其用量占比跃升至 token 的 17%,排名第三,超过了 OpenAI。几乎所有用量都来自两个模型:deepseek/deepseek-v4-flash 和 deepseek/deepseek-v4-pro,这两个模型都在 5 月发布。

在 2026 年 5 月,DeepSeek 持有每月 token 的 17%,在网关中按 token 用量排名第三。

支出情况则讲述了另一半故事。尽管 DeepSeek 在一个月内 token 占比增长到了 17%,但其支出占比仍接近 1%。

DeepSeek V4 Flash 的输入价格为每百万 token 0.14 美元,输出价格为 0.28 美元,比可比的 Anthropic 模型低约 20-50 倍,比其他价值级旗舰模型如 Qwen 3.6 Plus 和 Kimi K2.6 低 8-12 倍。由于节省的差距如此之大,团队迅速采用了 V4 Flash。

DeepSeek 在之前的 token 用量图表中表现突出,但在支出图表中几乎不可见。

仅凭价格本身,一个月内不会让 DeepSeek 的用量增长如此之多,这意味着测试 DeepSeek V4 的团队发现其输出质量足够好,足以部署,而不仅仅是低成本到可以尝试。

价值层级模型一直可以在 AI Gateway 上使用,但从未以如此规模获得过令牌份额,这意味着 DeepSeek V4 是首个在该价格点上达到生产工作质量门槛的模型。

链接到标题 前沿实验室继续占据新增支出的多数

尽管市场低端部分在数量上增长最快,但高端部分在美元金额上增长更快。

Anthropic 的令牌份额从 26% 增加到 32%,其支出份额也从 61% 增加到 65%。OpenAI 的令牌份额保持在约 13%,但其支出份额从 12% 上升到 13%,由于总支出基数更大,客户在 5 月份为每个 OpenAI 令牌支付的费用更高。

5 月份,平均每个令牌的价格变得更贵,即使 DeepSeek 降低了平均价格。这种上涨是因为需要前沿模型的工作增长速度超过了不需要前沿模型的工作。AI 编码代理用例最清楚地展示了低成本/前沿模型的分割情况:

  • DeepSeek 驱动了该细分市场 49% 的令牌量,但仅占 4% 的成本。
  • Anthropic 驱动了 28% 的令牌和 70% 的成本。

低成本模型现在已成为生产工作流程中重要的一部分,但前沿模型的使用仍在增长,推动了整体支出的增加。

2026 年 4 月,xAI 和 MiniMax 在编码代理用例中驱动了显著的令牌量。

2026 年 5 月,DeepSeek 在编码代理用例中占据了近一半的份额,而 xAI 和 MiniMax 的份额显著下降。在两个月中,后台工作负载一直以 Anthropic 为主。

前沿模型的每令牌成本正在上升,但客户仍在支付。Anthropic 在支出方面继续领先,5 月份占据了 AI Gateway 所有支出的 65%,并且在每个高风险用例中占据了 70-80% 的支出。

2026 年 4 月,Anthropic 是高风险用例(如 AI 应用生成、后台代理和 AI 编码代理)的首选前沿实验室。

2026 年 5 月,尽管 DeepSeek V4 在令牌量上取得了显著增长,Anthropic 仍然主导了高风险用例。

链接到标题 成本控制成为路由策略

整体支出的增加表明,5 月份对 AI 的需求继续增长,但团队通过路由策略对预算进行了更精确的控制。他们将便宜且高量的工作分配给价格较低的模型,并在质量最关键的地方使用前沿模型。Google 最新 Flash 模型的缓慢采用是一个明显的例子。

Gemini 3.5 Flash 在 5 月份以比 Gemini 3.0 Flash 更高的价格点推出,但迁移并未在大规模上发生。到月底,3.5 仅占 Flash 家族令牌的 7%,而 3.0 占据了 90%。

当 Gemini 3.5 Flash 在 5 月份以比 Gemini 3 更高的价格推出时,迁移并未在大规模上发生。

与 2 月和 3 月 Gemini 3.1 Pro 的快速采用相比,向 3.5 Flash 的迁移速度较慢,这表明对 3.0 Flash 满意的团队目前还不愿意支付更高的成本。

当 Gemini 3.1 Pro 在 2 月推出时,立即获得了 30% 的采用率,并在下一个月成为该系列中的主导模型。

链接到标题 结论:成本效益高且功能强大的选项意味着更智能的模型组合

本月的报告表明,尽管整体支出和令牌量在增长,但市场对价格的敏感性也在增加。这意味着开发人员正在寻找如何从每美元中获得更多效益的方法。

数据揭示了两种优化策略:

  • 使用 DeepSeek 便宜但功能强大的 V4 系列模型处理低风险、高数量的任务
  • 选择延迟模型系列升级,直到投资回报率变得合理

路由使团队能够在实验室竞争不同层级的生产 AI 工作负载时,实时调整其模型组合和预算。

附录链接

按 B2B 分类的 Token 与成本份额

B2B 应用程序运行的调用次数较少但成本较高,而 B2C 应用程序运行的调用次数较多但成本较低。按每个 Token 计算,5 月份 B2B 的成本比 B2C 高约 60%。

B2C 推动 Token 量,而 B2B 推动支出。

Token 和请求中的代理工具使用情况

略低于四分之一的请求最终会调用工具,但这些请求承载了超过一半的所有 Token。这两个指标在月度对比中大致保持平稳。

代理流量在 Token 密度方面远高于其请求份额所表明的水平,平均每个请求的 Token 密度约为 2.5 倍。

按请求量划分的模型多样性分布

应用程序处理的请求数越多,在生产环境中运行的模型就越多。单模型设置在最低请求量层级中占主导地位,而在请求量超过 100 万时,大多数应用程序会跨 11 个或更多模型进行路由。

随着规模的扩大,模型多样性也在增加。在请求量超过 100 万时,团队会跨 11 个或更多不同的模型进行路由。

按使用情况划分的成本与体积份额

使用情况成本份额表明错误答案的代价有多高,而不是它消耗了多少 Token。个人助手和编码代理在每个 Token 上的成本较低,而后台和招聘工作则成本要高得多。

体积较大的工作负载在每个 Token 上的成本更低。高风险工作负载的体积远少,但成本却很高。

之前的报告

阅读 2026 年 4 月 AI 网关生产指数。

关于这些数据

此分析基于来自 Vercel AI 网关截至 2026 年 5 月的匿名化、聚合路由数据。

关于测量的一些说明:

  • 支出使用市场定价(发布列表价格)来提供跨团队的标准化视图,这些团队使用自己的 API 密钥。
  • 体积统计的是通过 AI 网关路由的 Token 数量。
  • B2C、B2B 和使用情况分类是聚合的,没有识别任何个别团队或工作负载。

AI 可能会生成不准确的信息,请核实重要内容