T
traeai
登录
返回首页
lmarena.ai(@lmarena_ai)

Agent Arena has been live for 2 weeks, with 10 more models now on the new leaderboard. Two highlight...

7.0Score
Agent Arena has been live for 2 weeks, with 10 more models now on the new leaderboard. Two highlight...

TL;DR · AI 摘要

Agent Arena 已上线两周,GLM-5.2 和 Claude Fable 5 表现突出,提供真实任务评估。

核心要点

  • GLM-5.2 (Max) 在 Agent Arena 中取得 +9.4% 的确认成功和 +14.9% 的赞誉对比。
  • Claude Fable 5 在美国政府暂停访问前排名第一,是当前前沿的参考基准。
  • Agent Arena 通过数百万真实用户任务评估模型,使用因果追踪方法衡量性能。

结构提纲

按章节快速跳转。

  1. §Agent Arena 上线两周

    Agent Arena 已上线两周,新增 10 个模型进入排行榜。

  2. ·GLM-5.2 表现突出

    GLM-5.2 (Max) 由 Zai_Org 提出,取得 +9.4% 的确认成功和 +14.9% 的赞誉对比。

  3. ·Claude Fable 5 的表现

    Claude Fable 5 在美国政府暂停访问前排名第一,是当前前沿的参考基准。

  4. Agent Arena 使用因果追踪方法衡量模型在数百万真实任务中的表现。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • Agent Arena 评估模型
    • 上线两周
      • 新增 10 个模型
    • GLM-5.2 表现
      • +9.4% 确认成功
      • +14.9% 赞誉对比
    • Claude Fable 5 表现
      • 美国政府暂停访问前排名第一

金句 / Highlights

值得收藏与分享的关键句。

  • GLM-5.2 (Max) by @Zai_Org enters the top 10. The strongest open-weight result we've measured, at +9.4% confirmed success and +14.9% praise-vs-complaint.

    第 2 段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • Claude Fable 5 by @AnthropicAI debuted at #1 across nearly every metric before the U.S. government directive to suspend access.

    第 3 段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • In Agent Arena, we measure models on millions of real-world, long-horizon agentic tasks from a global community of users.

    第 4 段

    ⬇︎ 下载 PNG𝕏 分享到 X
#Agent Arena#模型评估#GLM-5.2#Claude Fable 5
打开原文

Arena.ai 在 X 上的推文: "Agent Arena 已上线两周,现在有 10 个新模型加入新的排行榜。两个值得关注的亮点: - 由 @Zai_Org 提供的 GLM-5.2 (Max) 进入前十。我们测量到的最强开源模型,确认成功率为 +9.4%,表扬与批评比为 +14.9% https://t.co/Qqh2E58nLB" / X

Arena.ai

@arena

Agent Arena 已上线两周,现在有 10 个新模型加入新的排行榜。两个值得关注的亮点: - 由

@

Zai_Org

提供的 GLM-5.2 (Max) 进入前十。我们测量到的最强开源模型,确认成功率为 +9.4%,表扬与批评比为 +14.9%

AnthropicAI

推出的 Claude Fable 5 在美国政府下令暂停访问之前几乎在所有指标上都排名第一。它目前前沿模型的一个有用上限。在 Agent Arena 中,我们通过全球用户社区提供的数百万个真实世界、长期目标的智能体任务来评估模型。模型可以使用网络搜索、文件系统和终端工具来完成复杂的任务流程。排行榜通过因果追踪方法,衡量模型在相对于平均模型的成果方面的表现。哪个模型将进入 Arena?了解更多方法论并查看实时排行榜(链接在推文下方)👇

6月4日

介绍 Agent Arena:大规模的真实世界智能体评估。如何评估正在执行实际任务的智能体?我们通过数百万个真实用户完成真实任务的实时会话进行评估。在 Arena 上,模型现在可以使用网络搜索、文件系统和终端工具来完成复杂的

显示更多

2026年6月17日 下午8:21

19.2K

浏览量

1

4

14

2

7

27

3

8

238

43

阅读14条回复

AI 可能会生成不准确的信息,请核实重要内容

Agent Arena has been live for 2 weeks, with 10 more models now on the new leaderboard. Two highlight... | lmarena.ai(@lmarena_ai) | traeai