T
traeai
登录
返回首页
Hacker News Best

Claude Opus 4.8

8.5Score
Claude Opus 4.8

TL;DR · AI 摘要

Claude Opus 4.8 提升了多任务处理能力、推理能力和代码生成效率,同时价格更低。

核心要点

  • Claude Opus 4.8 在 Super-Agent 基准测试中超越 GPT-5.5,完成所有案例。
  • 新动态工作流功能使 Claude Code 能解决超大规模问题,效率提升显著。
  • 快速模式下 Opus 4.8 的速度是前代的 2.5 倍,成本降低至三分之一。

结构提纲

按章节快速跳转。

  1. Claude Opus 4.8 正式发布,性能提升且价格不变。

  2. 新增动态工作流和任务控制功能,显著提升效率。

  3. Claude Opus 4.8 在多个基准测试中表现优于前代和 GPT-5.5。

  4. 早期用户称赞其可靠性、判断力和协作能力。

  5. 快速模式速度提升 2.5 倍,成本降低至前代的三分之一。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • Claude Opus 4.8

金句 / Highlights

值得收藏与分享的关键句。

  • Claude Opus 4.8 is the only model to complete every case end-to-end on the Super-Agent benchmark.

    Paragraph 2

    ⬇︎ 下载 PNG𝕏 分享到 X
  • Fast mode for Opus 4.8—where the model can work at 2.5× the speed—is now three times cheaper than it was for previous models.

    Paragraph 1

    ⬇︎ 下载 PNG𝕏 分享到 X
  • Claude Opus 4.8 delivers the highest score recorded on our Legal Agent Benchmark.

    Paragraph 3

    ⬇︎ 下载 PNG𝕏 分享到 X
#AI#Anthropic#Claude#LLM#模型优化
打开原文

我们正在将 Claude Opus 升级到全新版本:Claude Opus 4.8。该版本在 Opus 4.7 的基础上提升了多项基准测试表现,并成为更高效的协作伙伴。今日起即可使用,价格保持不变。

Opus 4.8 同步推出多项新功能。claude.ai 用户现可控制 Claude 在任务中投入的努力程度。Claude Code 新增“动态工作流”功能,使其能够处理超大规模问题。而 Opus 4.8 的快速模式(模型运行速度提升至 2.5 倍)的价格仅为之前版本的三分之一。

Opus 4.8 的能力

下表展示了 Opus 4.8 在编程、自主性技能、推理及实用知识工作任务测试中与前代版本及其他模型的对比。更多详细数据及更广泛的能力评估请参阅 Claude Opus 4.8 系统卡

Image 1

与 Opus 4.8 协作体验

早期试用者发现,Claude Opus 4.8 在执行自主性任务时表现更加可靠且判断力更强。以下是众多试用者分享的协作体验:

Image 2:  logo

Claude Opus 4.8 的判断力明显提升。在 Claude Code 中,它会提出恰当的问题,及时发现自身错误,在计划不合理时主动反馈,并在涉及复杂多服务探索时逐步建立信心后再进行重大变更。这是一个非常适合构建项目的优秀模型。

Image 3:  logo

在我们的 Super-Agent 基准测试中,Claude Opus 4.8 是唯一能完整完成所有案例的模型,其成本效益与之前的 Opus 版本及 GPT-5.5 相当。对于翻译、深度研究、幻灯片制作及分析等代理类产品,它提供了强大的可靠性。

Image 4:  logo

在 CursorBench 测试中,Claude Opus 4.8 在所有努力级别上均超越了之前的 Opus 版本。工具调用效率显著提高,以更少步骤实现同等智能水平,并能完整执行端到端任务。

Image 5:  logo

Claude Opus 4.8 在我们的法律代理基准测试中取得了有史以来最高分,并首次突破整体通过率 10% 的标准。对于实质性法律工作而言,这种准确性的提升意味着客户可以更有信心地将真实律师工作委托给模型处理。

Image 6:  logo

相比 Opus 4.7,Claude Opus 4.8 带来了显著的质量提升:速度更快、协作更顺畅,且能在长时间对话中更好地保持上下文和风格一致性。当语音、品味与技术执行需要同步进行时,Opus 4.8 是值得信赖的选择。

Image 7:  logo

在 Online-Mind2Web 测试中,Claude Opus 4.8 取得了 84% 的高分,较 Opus 4.7 和 GPT-5.5 有显著提升。它能始终保持反思性和任务专注度,满足客户对代理工作负载端到端可靠性的需求。

Image 8:  logo

在我们的自主工程工作负载测试中,Claude Opus 4.8 能干净利落地使用工具,并以我们所需的稳定性遵循指令持续运行。相比 Opus 4.6,它解决了 Opus 4.7 存在的注释冗余和工具调用问题。此次发布直接加速了基于 Devin 构建的工程师能力提升。

Image 9:  logo

在长期评估中,Claude Opus 4.8 的分析质量始终优于之前的 Opus 版本。它完成任务更快,输出结果更丰富且信息密度更高。最显著的区别在于,Opus 4.8 主动标记分析输入和输出中的问题,而其他模型通常会忽略这些问题,需用户自行发现。

Image 10:  logo

在 CoCounsel Legal 测试中,Claude Opus 4.8 在一致性与推理质量方面较之前版本有显著提升。对于客户依赖的高风险专业工作流程而言,这种可靠性至关重要。随着我们为法律和税务专业人士构建受托级 AI 系统,此类进步有助于提升现实工作中可信 AI 性能的标准。

Image 11:  logo

Claude Opus 4.8 为企业人工智能树立了新的标杆。在 Genie(Databricks 的数据与知识工作 AI 代理)中,全新的 Opus 模型实现了自主推理能力的重大飞跃,能够比以往任何版本的 Opus 更快地解决更深层次的多步骤问题。其多模态能力还使 Genie 能够以比 Opus 4.7 低 61% 的标记成本直接对 PDF、图表和其他非结构化内容进行推理。

Image 12: logo

在 Hebbia 编排器的财务文档工作流中,Claude Opus 4.8 提供了与 Opus 4.7 相同的高质量性能,同时在引用精确性和检索效率上显著提升,非常适合客户每天运行的密集型备案文件处理任务。

01 /

11

Claude Opus 4.8 最突出的改进之一是其诚实性。我们训练所有模型保持诚实,例如避免提出无法支持的主张。然而,AI 模型的一个普遍问题是有时会仓促下结论,自信地声称自己取得了进展,尽管证据薄弱。早期测试者报告称,Opus 4.8 更倾向于指出自身工作的不确定性,并减少无根据的断言。这一结论在我们的评估中得到印证:Opus 4.8 允许其编写的代码中未被发现的缺陷通过的概率比前代模型低约四倍。

如往常一样,我们在发布前对模型进行了详细的对齐评估。在积极特质方面,我们的对齐团队认为 Opus 4.8 “在支持用户自主权和维护用户最佳利益等亲社会特质方面达到了新高度”。评估还显示,Opus 4.8 的不当行为发生率(如欺骗或配合滥用)明显低于 Opus 4.7,且与我们对齐程度最高的模型 Claude Mythos Preview 相当。完整的对齐评估及一系列预部署安全测试结果已收录于《Claude Opus 4.8 系统卡》。

Image 13

今日同步推出

除 Claude Opus 4.8 外,我们还推出了以下更新:

  • 动态工作流。这项新功能(现处于研究预览阶段)使 Claude 能够在 Claude Code 中承担更大规模的任务。Claude 可规划工作并单次运行数百个并行子代理(借助 Opus 4.8,代理可运行更长时间),随后验证输出结果再向用户汇报。例如,Claude Code 结合 Opus 4.8 现可从启动到合并完成数十万行代码库级迁移,以现有测试套件作为衡量标准。有关动态工作流的更多信息(适用于 Enterprise、Team 和 Max 计划的 Claude Code 用户),请参阅**此博文**
  • [claude.ai](http://claude.ai/redirect/website.v1.074cef6b-45b5-4cc4-8eb5-6b0a77e8d175) 和 Cowork 中的努力控制。模型选择器旁新增的控制项允许用户选择 Claude 回应时投入的努力程度。在更高努力设置下,Claude 将更频繁、更深入地思考以提供更优结果;在较低努力设置下,Claude 响应速度更快且更节省用户的速率限制。现在所有计划的用户均可使用该功能。
  • Messages API 现接受 messages 数组内的系统条目。开发者可在任务中途更新 Claude 的指令,无需破坏提示缓存或通过用户回合传递更新。这可用于在代理运行期间动态调整权限、标记预算或环境上下文。

Video 3

关于努力的说明

Opus 4.8 默认采用高努力模式,我们认为这是质量与用户体验的最佳平衡点。在编码任务中,该努力等级消耗的标记数与 Opus 4.7 的默认设置相当,但性能更优。用户可选择“额外”(Claude Code 中为“xhigh”)或“最大”努力等级,此时模型将消耗更多标记以获得更优结果;我们建议在处理困难任务或长期异步工作流时使用“额外”模式。我们已在 Claude Code 中提升了速率限制,以适应更高努力等级带来的标记用量增加;用户可根据具体项目需求自行选择。

下一步计划

用户将感受到 Opus 4.8 相较前代的适度但切实的改进。我们仍需继续努力:正在开发并即将推出具备类似 Opus 能力但成本更低的模型。

此外,我们计划发布一类智能水平更高的新型模型。作为Project Glasswing的一部分,少数机构当前正使用 Claude Mythos Preview 进行网络安全工作。此类高能力模型需要更强的网络安全防护措施方可全面推广。我们正在快速推进这些防护措施的开发,预计未来数周内可向所有客户开放 Mythos 级别模型。

可用性

Claude Opus 4.8 今日起全球可用。常规使用价格与 Opus 4.7 保持一致:每百万输入标记 5 美元,每百万输出标记 25 美元。快速模式价格为每百万输入标记 10 美元,每百万输出标记 50 美元。开发者可通过Claude API使用 claude-opus-4-8

相关内容

Anthropic 完成 H 轮融资 650 亿美元,投后估值达 9650 亿美元

了解更多

Anthropic 在米兰开设新办事处以支持意大利企业、研究和开发者

我们将在米兰开设新的办事处,这是我们在欧洲的第六个办事处。

了解更多

Anthropic 任命 KiYoung Choi 为首尔办事处开业前夕韩国代表董事

了解更多

AI 可能会生成不准确的信息,请核实重要内容

Claude Opus 4.8 | Hacker News Best | traeai