Claude Opus 4.8 debuts on Agent Arena tied #1 with GPT 5.5 (High) for Thinking & ranked #8 for Non-T...

lmarena.ai(@lmarena_ai)

lmarena.ai(@lmarena_ai)2026年6月9日

Claude Opus 4.8 debuts on Agent Arena tied #1 with GPT 5.5 (High) for Thinking & ranked #8 for Non-T...

8.5内容质量

TL;DR · AI 摘要

Claude Opus 4.8 在 Agent Arena 上与 GPT 5.5 并列第一，但在非思考任务中排名第八。

核心要点

Claude Opus 4.8 在开启思考模式时表现优于 4.7 版本。
Claude Opus 4.8 在非思考任务中排名第八，但工具幻觉率较高。
Agent Arena 使用因果追踪方法对模型进行评估，基于真实用户任务。

结构提纲

按章节快速跳转。

§Claude Opus 4.8 的表现
Claude Opus 4.8 在 Agent Arena 上与 GPT 5.5 并列第一，但在非思考任务中排名第八。
·与前一版本的比较
Claude Opus 4.8 在开启思考模式时表现优于其前一版本 4.7。
›工具幻觉问题
Claude Opus 4.8 在关闭思考模式时表现出较高的工具幻觉率。
›Agent Arena 的评估方法
Agent Arena 使用因果追踪方法对模型进行评估，基于真实用户任务。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

Claude Opus 4.8 的评估
- Agent Arena 的评估方法
  - 因果追踪方法
  - 基于真实用户任务
- Claude Opus 4.8 的表现
  - 开启思考模式时优于 4.7
  - 关闭思考模式时工具幻觉率高

金句 / Highlights

值得收藏与分享的关键句。

Claude Opus 4.8 在开启思考模式时表现优于其前一版本 4.7。
— 第 2 段
⬇︎ 下载 PNG 𝕏 分享到 X
Claude Opus 4.8 在关闭思考模式时表现出较高的工具幻觉率。
— 第 3 段
⬇︎ 下载 PNG 𝕏 分享到 X
Agent Arena 使用因果追踪方法对模型进行评估，基于真实用户任务。
— 第 4 段
⬇︎ 下载 PNG 𝕏 分享到 X

#Claude#GPT#Agent Arena#模型评估

打开原文

Arena.ai 在 X 上的推文：“Claude Opus 4.8 在 Agent Arena 上首次亮相，与 GPT 5.5 (High) 并列第一（思考任务），在非思考任务中排名第八。Opus 4.8 模型在开启思考功能时，相比其前代版本 4.7 有小幅提升。开启思考功能时，它能完成比 4.7 更多的任务，但 https://t.co/eeaM4t53kU” / X

Arena.ai

@arena

Claude Opus 4.8 在 Agent Arena 上首次亮相，与 GPT 5.5 (High) 并列第一（思考任务），在非思考任务中排名第八。Opus 4.8 模型在开启思考功能时，相比其前代版本 4.7 有小幅提升。开启思考功能时，它能完成比 4.7 更多的任务，但恢复 bash 错误的速度较慢。此版本在工具幻觉方面也有所退步。关闭思考功能时，它的工具幻觉率在排行榜上居于高位。Agent Arena 使用因果追踪方法，根据现实世界中的智能体任务对模型进行排名。一个模型的净改进程度表明它与平均模型的对比情况。该线程详细介绍了来自

@AnthropicAI

的两个 Opus 4.8 版本如何在五个信号上得分，这些信号来自全球用户社区提交的真实任务。

6月4日

介绍 Agent Arena：大规模的现实世界智能体评估。如何评估正在执行实际任务的智能体？我们测量数百万个实时会话，其中真实用户完成真实任务。在 Arena 上，模型现在可以使用网络搜索、文件系统和终端工具来完成复杂任务。

显示更多

2026年6月9日晚上11:56

19.9K

浏览量

1

2

12

4

14

5

255

22

阅读12条回复