Claude Opus 4.8 debuts on Agent Arena tied #1 with GPT 5.5 (High) for Thinking & ranked #8 for Non-T...

TL;DR · AI 摘要
Claude Opus 4.8 在 Agent Arena 上与 GPT 5.5 并列第一,但在非思考任务中排名第八。
核心要点
- Claude Opus 4.8 在开启思考模式时表现优于 4.7 版本。
- Claude Opus 4.8 在非思考任务中排名第八,但工具幻觉率较高。
- Agent Arena 使用因果追踪方法对模型进行评估,基于真实用户任务。
结构提纲
按章节快速跳转。
Claude Opus 4.8 在 Agent Arena 上与 GPT 5.5 并列第一,但在非思考任务中排名第八。
Claude Opus 4.8 在开启思考模式时表现优于其前一版本 4.7。
Claude Opus 4.8 在关闭思考模式时表现出较高的工具幻觉率。
Agent Arena 使用因果追踪方法对模型进行评估,基于真实用户任务。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- Claude Opus 4.8 的评估
- Agent Arena 的评估方法
- 因果追踪方法
- 基于真实用户任务
- Claude Opus 4.8 的表现
- 开启思考模式时优于 4.7
- 关闭思考模式时工具幻觉率高
金句 / Highlights
值得收藏与分享的关键句。
Claude Opus 4.8 在开启思考模式时表现优于其前一版本 4.7。
Claude Opus 4.8 在关闭思考模式时表现出较高的工具幻觉率。
Agent Arena 使用因果追踪方法对模型进行评估,基于真实用户任务。
Arena.ai 在 X 上的推文:“Claude Opus 4.8 在 Agent Arena 上首次亮相,与 GPT 5.5 (High) 并列第一(思考任务),在非思考任务中排名第八。Opus 4.8 模型在开启思考功能时,相比其前代版本 4.7 有小幅提升。开启思考功能时,它能完成比 4.7 更多的任务,但 https://t.co/eeaM4t53kU” / X
Arena.ai
@arena
Claude Opus 4.8 在 Agent Arena 上首次亮相,与 GPT 5.5 (High) 并列第一(思考任务),在非思考任务中排名第八。Opus 4.8 模型在开启思考功能时,相比其前代版本 4.7 有小幅提升。开启思考功能时,它能完成比 4.7 更多的任务,但恢复 bash 错误的速度较慢。此版本在工具幻觉方面也有所退步。关闭思考功能时,它的工具幻觉率在排行榜上居于高位。Agent Arena 使用因果追踪方法,根据现实世界中的智能体任务对模型进行排名。一个模型的净改进程度表明它与平均模型的对比情况。该线程详细介绍了来自
的两个 Opus 4.8 版本如何在五个信号上得分,这些信号来自全球用户社区提交的真实任务。
6月4日
介绍 Agent Arena:大规模的现实世界智能体评估。如何评估正在执行实际任务的智能体?我们测量数百万个实时会话,其中真实用户完成真实任务。在 Arena 上,模型现在可以使用网络搜索、文件系统和终端工具来完成复杂任务。
显示更多
2026年6月9日 晚上11:56
19.9K
浏览量
1
2
12
4
14
5
255
22
阅读12条回复