Opus 4.8（已全面测试）：它真的优秀吗？

AICodeKing视频2026年5月29日

8.7内容质量

可直接观看的视频资源打开原视频

TL;DR · AI 摘要

Claude Opus 4.8在作者自建基准测试中得分87.14%（61/70），显著优于前代；新增Fast模式（2.5倍速、价格降为此前1/3）、高努力默认策略与X-High/max选项，并支持动态工作流与API内系统消息更新，编码诚实性提升4倍。

按章节快速跳转。

§Opus 4.8性能实测结果
作者自建70题基准测试中，Opus 4.8得分61（87.14%），为迄今最高分，显著优于Opus 4.7、GPT-4.5、Gemini 3.5 Flash等模型。
§核心功能升级
新增Fast模式（2.5倍速、价格降至原1/3）、High Effort默认策略及X-High/Max选项，用户无需手动配置推理token预算。
·动态工作流与系统消息支持
Claude Code推出动态工作流（Research Preview），支持多智能体并行执行与验证；API允许在消息流中插入系统消息以动态调整权限与上下文。
·编码诚实性显著提升
Opus 4.8遗漏自身代码缺陷的概率比Opus 4.7低约4倍，作者认为该指标比基准分数更具工程实用价值。

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

值得收藏与分享的关键句。

Opus 4.8在70题基准测试中得61分（87.14%），是作者测试过的首个突破87%的模型。
— 0:54–0:57
⬇︎ 下载 PNG 𝕏 分享到 X
Fast模式推理速度达2.5倍，输出token定价为$1.67/million（原$5），较前代模型便宜3倍。
— 1:24–1:29
⬇︎ 下载 PNG 𝕏 分享到 X
Opus 4.8默认启用High Effort模式，且遗漏自身代码缺陷的概率比Opus 4.7低约4倍。
— 1:38–1:42, 3:11–3:16
⬇︎ 下载 PNG 𝕏 分享到 X
API现支持在messages数组中插入system消息，使Agent可在运行时动态更新指令、权限与环境上下文而不破坏缓存。
— 2:51–3:08
⬇︎ 下载 PNG 𝕏 分享到 X

#Claude#大语言模型#Anthropic#AI编码#Benchmark