Riley Brown视频2026年5月31日

最新的Codex更新与关于Opus 4.8的真相

7.8内容质量

可直接观看的视频资源打开原视频

TL;DR · AI 摘要

Anthropic发布Claude Opus 4.8，但多位专家指出其与4.7几乎无差异，已进入类似iPhone的‘渐进式升级’时代；Deep Suite实测显示GPT 5.5在编码任务中以更低成本获得更高得分，OpenAI Codex更新未公开但显著增强。

核心要点

Opus 4.8与4.7对比，作者及多位专家均无法分辨性能差异，体现模型演进进入‘iPhone式’渐进阶段。
Deep Suite测试表明：GPT 5.5在SWEBench Pro等长周期工程任务中，以更低成本和更少token产出更高分数，优于Opus 4.8。
OpenAI近期对Codex进行多项未公开更新，包括超应用（super app）能力增强，强化其在开发工具链中的主导地位。

结构提纲

按章节快速跳转。

§Opus 4.8 发布与争议
Anthropic宣称Opus 4.8为全球最先进模型，但实际对比显示其与4.7几乎无差别，引发‘iPhone式升级’讨论。
·专家观点与实测反馈
Greg Eisenberg、Matt Wolf等从业者认为4.8无实质提升；作者亲自耗时3小时对比仍无法区分4.7与4.8。
·Deep Suite 实测数据对比
在SWEBench Pro任务中，GPT 5.5以更低成本和token消耗取得更高评分，优于Opus 4.8。
·OpenAI Codex 更新亮点
OpenAI发布Codex超应用重大更新，部分功能未公开，强化其在AI开发工具链中的核心地位。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

AI模型演进现状与Codex更新
- Opus 4.8发布争议
  - 官方宣称‘最先进’
  - 实测难辨与4.7差异
- 行业共识：渐进式升级
  - 类比iPhone迭代模式
  - 专家普遍不认为有质变
- GPT 5.5 vs Opus 4.8 实测结果
  - Deep Suite SWEBench Pro 数据
  - GPT 5.5 成本/效率优势
- OpenAI Codex 超应用更新
  - 未公开功能增强
  - 强化开发工具链整合

金句 / Highlights

值得收藏与分享的关键句。

我确实无法分辨这两个模型之间的差异——而且我不止一个人这么想。
— 第 1:37 段
⬇︎ 下载 PNG 𝕏 分享到 X
GPT 5.5 在更低的成本下获得了更高的评分，而Anthropic的Opus 4.8则相反。
— 第 3:45 段
⬇︎ 下载 PNG 𝕏 分享到 X
当有重大更新时，Matt会花五到十分钟详细讲解……但他这次只讲了一分钟。
— 第 2:46 段
⬇︎ 下载 PNG 𝕏 分享到 X

#AI模型#Claude#GPT-5.5#Codex#SWEBench