T
traeai
登录
返回首页
lmarena.ai(@lmarena_ai)

Claude Opus 4.8 debuts on Agent Arena tied #1 with GPT 5.5 (High) for Thinking & ranked #8 for Non-T...

8.5Score
Claude Opus 4.8 debuts on Agent Arena tied #1 with GPT 5.5 (High) for Thinking & ranked #8 for Non-T...

TL;DR · AI 摘要

Claude Opus 4.8 在 Agent Arena 上与 GPT 5.5 并列第一,但在非思考任务中排名第八。

核心要点

  • Claude Opus 4.8 在开启思考模式时表现优于 4.7 版本。
  • Claude Opus 4.8 在非思考任务中排名第八,但工具幻觉率较高。
  • Agent Arena 使用因果追踪方法对模型进行评估,基于真实用户任务。

结构提纲

按章节快速跳转。

  1. §Claude Opus 4.8 的表现

    Claude Opus 4.8 在 Agent Arena 上与 GPT 5.5 并列第一,但在非思考任务中排名第八。

  2. Claude Opus 4.8 在开启思考模式时表现优于其前一版本 4.7。

  3. Claude Opus 4.8 在关闭思考模式时表现出较高的工具幻觉率。

  4. Agent Arena 使用因果追踪方法对模型进行评估,基于真实用户任务。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • Claude Opus 4.8 的评估
    • Agent Arena 的评估方法
      • 因果追踪方法
      • 基于真实用户任务
    • Claude Opus 4.8 的表现
      • 开启思考模式时优于 4.7
      • 关闭思考模式时工具幻觉率高

金句 / Highlights

值得收藏与分享的关键句。

#Claude#GPT#Agent Arena#模型评估
打开原文

Arena.ai 在 X 上的推文:“Claude Opus 4.8 在 Agent Arena 上首次亮相,与 GPT 5.5 (High) 并列第一(思考任务),在非思考任务中排名第八。Opus 4.8 模型在开启思考功能时,相比其前代版本 4.7 有小幅提升。开启思考功能时,它能完成比 4.7 更多的任务,但 https://t.co/eeaM4t53kU” / X

Arena.ai

@arena

Claude Opus 4.8 在 Agent Arena 上首次亮相,与 GPT 5.5 (High) 并列第一(思考任务),在非思考任务中排名第八。Opus 4.8 模型在开启思考功能时,相比其前代版本 4.7 有小幅提升。开启思考功能时,它能完成比 4.7 更多的任务,但恢复 bash 错误的速度较慢。此版本在工具幻觉方面也有所退步。关闭思考功能时,它的工具幻觉率在排行榜上居于高位。Agent Arena 使用因果追踪方法,根据现实世界中的智能体任务对模型进行排名。一个模型的净改进程度表明它与平均模型的对比情况。该线程详细介绍了来自

@AnthropicAI

的两个 Opus 4.8 版本如何在五个信号上得分,这些信号来自全球用户社区提交的真实任务。

6月4日

介绍 Agent Arena:大规模的现实世界智能体评估。如何评估正在执行实际任务的智能体?我们测量数百万个实时会话,其中真实用户完成真实任务。在 Arena 上,模型现在可以使用网络搜索、文件系统和终端工具来完成复杂任务。

显示更多

2026年6月9日 晚上11:56

19.9K

浏览量

1

2

12

4

14

5

255

22

阅读12条回复

AI 可能会生成不准确的信息,请核实重要内容