Anthropic刚刚发布了Opus 4.8……（哇！）

Matthew Berman视频2026年5月29日

7.8内容质量

可直接观看的视频资源打开原视频

TL;DR · AI 摘要

Anthropic发布Claude Opus 4.8，性能显著提升：SWE-bench Pro编码准确率达69.2%（较4.7版+5点），推理速度提升至2.5倍（约250 tokens/sec），并新增动态工作流与长时自主任务能力，价格维持不变。

按章节快速跳转。

§Opus 4.8核心升级概览
Opus 4.8在保持价格不变前提下，提升了判断力、诚实性与独立工作时长，并引入更快的推理模式。
·性能与速度实测数据
SWE-bench Pro得分69.2%（+5点），推理速度达250 tokens/秒（2.5倍提升），显著优于GPT-4.5在部分基准的表现。
·新功能：动态工作流与长时自主任务
Opus 4.8可在Cloud Code中自主完成特征开发或Bug修复，支持数百并行子智能体协同执行复杂迁移任务。
·Benchmark争议与DeepU替代方案
作者指出SWE-bench Pro因高分失真，转而推荐DeepU作为更反映真实用户体验的评估标准。

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

值得收藏与分享的关键句。

SWE-bench Pro得分69.2%，比Opus 4.7提升5个百分点——仅在发布6周后实现此跃升。
— 第2:47段
⬇︎ 下载 PNG 𝕏 分享到 X
推理速度提升至约250 tokens/秒（原100 tokens/秒），即2.5倍加速；通过`/fast`指令在API中启用。
— 第1:15–1:24段
⬇︎ 下载 PNG 𝕏 分享到 X
动态工作流可规划任务、运行数百个并行子智能体，并在报告前自动验证结果，适用于跨数百文件的代码迁移。
— 第2:06–2:16段
⬇︎ 下载 PNG 𝕏 分享到 X
作者质疑SWE-bench Pro有效性，指出GPT-4.5得70%而Opus 4.7仅54%（DeepU基准），认为其已‘不可信’。
— 第3:48–3:55段
⬇︎ 下载 PNG 𝕏 分享到 X

#Anthropic#Claude#大语言模型#SWE-bench#AI编程