Arena's AI Capability Lead @petergostev runs @AnthropicAI's latest Claude Opus 4.8 through 200+ Code...

Q: Thinking vs Non-Thinking

模型在思考和非思考场景中均表现出色。

lmarena.ai(@lmarena_ai)

lmarena.ai(@lmarena_ai)2026年5月29日

Arena's AI Capability Lead @petergostev runs @AnthropicAI's latest Claude Opus 4.8 through 200+ Code...

8.5内容质量

TL;DR · AI 摘要

测试包括与 Gemini 和 GLM 的对比，涵盖多种场景。

核心要点

Claude Opus 4.8 在 200 多项前端测试中胜过 Gemini 3.1 Pro 和 GLM 5.1。
模型在 3D 场景生成和游戏开发任务中表现最佳。
测试涵盖思考与非思考场景，全面评估模型能力。

结构提纲

按章节快速跳转。

§Introduction
Claude Opus 4.8 被测试于 200 多项前端任务中。
·Test Setup
测试包括与 Gemini 和 GLM 的对比，涵盖多种场景。
·Performance Analysis
Claude Opus 4.8 在 3D 场景和游戏生成中表现突出。
›Thinking vs Non-Thinking
模型在思考和非思考场景中均表现出色。
§Conclusion
Claude Opus 4.8 是当前领先的多模态模型之一。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

Claude Opus 4.8 Testing

金句 / Highlights

值得收藏与分享的关键句。

Claude Opus 4.8 outperforms Gemini 3.1 Pro and GLM 5.1 in over 200 frontend tests.
— Paragraph 1
⬇︎ 下载 PNG 𝕏 分享到 X
The model excels in 3D scene generation and game development tasks.
— Paragraph 2
⬇︎ 下载 PNG 𝕏 分享到 X
Tests include both thinking and non-thinking scenarios for comprehensive evaluation.
— Paragraph 3
⬇︎ 下载 PNG 𝕏 分享到 X

#AI#AnthropicAI#Claude Opus#Gemini#GLM

打开原文

Arena.ai 在 X 上：“Arena 的 AI 能力负责人 @petergostev 对 @AnthropicAI 最新的 Claude Opus 4.8 进行了 200 多项 Code Arena: Frontend 测试。无论是思考模式还是非思考模式，都与以往的 Opus 变体、Gemini 3.1 Pro、3.5 Flash 和 GLM 5.1 进行了正面较量。跨 3D 场景、游戏生成和前端 UI 设计对比输出结果，并告诉我们您的看法。链接见下方线程 ![Image 4: 🧵](https://abs.twimg.com/emoji/v2/svg/1f9f5.svg)![Image 5: 👇](https://abs.twimg.com/emoji/v2/svg/1f447.svg)

不要错过正在发生的事情

Arena 的 AI 能力负责人

对

的最新 Claude Opus 4.8 进行了 200 多项 Code Arena: Frontend 测试。无论是思考模式还是非思考模式，都与以往的 Opus 变体、Gemini 3.1 Pro、3.5 Flash 和 GLM 5.1 进行了正面较量。跨 3D 场景、游戏生成和前端 UI 设计对比输出结果，并告诉我们您的看法。链接见下方线程 Image 4: 🧵 Image 5: 👇

凌晨 12:46 · 2026 年 5 月 29 日

·

24.8K 次查看

5

8

157

26