Claude 4.8炸场!部分能力超过Mythos,支持数百子智能体并行
Claude Opus 4.8发布,代码缺陷漏报率降至4.7版的1/4,硬编答案概率降为1/10;新增动态工作流支持数百子智能体并行执行任务,Bun项目实测产出75万行Rust代码、99.8%测试通过。
入选理由:Opus 4.8代码缺陷漏报率仅为Opus 4.7的25%,硬编答案行为概率下降至1/10
模型对比
Claude Opus 4.8 和 Gemini 3.5 都是 AI 领域的模型。以下是基于 traeai 收录的真实报道数据的全面对比。
模型
也叫:Opus 4.8、Claude Opus
Anthropic 发布的最新语言模型。
9 篇相关报道
模型
也叫:Gemini 3.5 Flash、Gemini 3.5 Pro
Google新一代多模态AI模型系列
14 篇相关报道
9
Claude Opus 4.8 相关
0
共同提及
14
Gemini 3.5 相关
Claude Opus 4.8发布,代码缺陷漏报率降至4.7版的1/4,硬编答案概率降为1/10;新增动态工作流支持数百子智能体并行执行任务,Bun项目实测产出75万行Rust代码、99.8%测试通过。
入选理由:Opus 4.8代码缺陷漏报率仅为Opus 4.7的25%,硬编答案行为概率下降至1/10
Opus 4.8在Sweet Bench Pro测试中达69.2%,超Opus 4.7约5点、GPT-4.5约10点;但实测中仍难解决‘最后10%’问题与幻觉,定价高昂($5/k输入token)。
入选理由:Opus 4.8在Sweet Bench Pro上得分69.2%,显著优于Opus 4.7(+5pt)、GPT-4.5(+10pt)和Gemini 3.1(+15pt)
llm-anthropic 0.25.1 发布,新增 Claude Opus 4.8 模型及快速模式选项,优化默认最大输出令牌数。
入选理由:新增 Claude Opus 4.8 模型,性能有所提升。
Anthropic完成650亿美元Series H融资,投后估值9650亿美元,营收年化达470亿美元;同步发布Claude Opus 4.8(修复4.7缺陷、性能全面领先)及Dynamic Workflows(ultracode),支持数百并行子智能体协同编程,已实现Bun项目75万行代码6天重写。
入选理由:Anthropic Series H融资650亿美元,投后估值9650亿美元,营收年化470亿美元(2025年12月为90亿美元)
AI提升白领产能催生四天工作制设想,但收益多被资本攫取;YouTube将自动为逼真AI视频打标;Opus 4.8小幅改进,社区更关注GRAM小模型路径;LLM事实核查分歧大;Win10可4K运行《模拟城市3000》。
入选理由:AI提升生产力未显著改善普通开发者薪资与休假,反而加剧财富集中,需政策与工会集体行动保障员工权益
Anthropic发布Claude Opus 4.8,性能显著提升:SWE-bench Pro编码准确率达69.2%(较4.7版+5点),推理速度提升至2.5倍(约250 tokens/sec),并新增动态工作流与长时自主任务能力,价格维持不变。
入选理由:Opus 4.8在SWE-bench Pro测试中达69.2%,比6周前发布的Opus 4.7提升5个百分点
Claude Opus 4.8 引入“Ultra Code”高努力等级与增强型智能体,支持超长时运行、数百并行子智能体及输出自验证,可完成数十万行代码迁移;其‘更诚实’体现为坦承局限与隐藏功能路径。
入选理由:新增5级努力等级(low至maximum)+ Ultra Code模式,后者需手动启用且默认设为odd模式
iOS 27曝光Siri双入口与独立App设计;Claude Opus 4.8快速模式成本降为1/3且代码缺陷漏检率降至前代1/4;鸿蒙生态设备超13亿台;DeepSeek短暂服务中断22分钟;小米成全球新能源第七,超大众丰田。
入选理由:iOS 27新增‘Search or Ask’下拉入口,支持跨应用多级任务与多模态附件上传
Google Cloud 在 I/O 大会发布 Gemini 3.5 Flash 与 Gemini Omni 模型,并推出 Gemini Spark 智能体与 CodeMender 安全工具,显著提升了企业级 AI 的视频生成、代码编写及自动化能力。
入选理由:Gemini 3.5 Flash 在 Terminal-Bench 2.1 达到 76.2% 分数,成本低于同类模型一半。
Google 发布 Gemini 3.5 模型家族,首发 3.5 Flash 专注于复杂智能体工作流,在编码和代理基准测试中超越 3.1 Pro,速度比前沿模型快 4 倍,在 Antigravity 中优化后可达 12 倍。
入选理由:Gemini 3.5 Flash 专为执行复杂、长周期的智能体工作流而设计。
Google I/O宣布进入Agentic Era,推出Gemini 3.5系列模型及多模态Gemini Omni,强化AI代理功能与Gemini App交互体验。
入选理由:Gemini 3.5 Flash成为默认模型,提升速度、编码和多模态能力,预计6月发布Pro版本
Google发布了一系列新的AI功能和产品,包括Gemini Omni多模态模型和Gemini 3.5 Flash,能通过自然语言对话生成和编辑视频,并在代理编码方面表现优异。
入选理由:Gemini Omni是新的多模态模型家族,专注于视频创建和编辑,能理解复杂物理概念并生成高度准确的视频内容。
Google I/O 2026发布多项AI产品,Gemini 3.5 Flash性能提升,Anti-Gravity 2.0增加项目管理功能,Omni、Flow等创意工具亮相。
入选理由:Gemini 3.5 Flash在速度和代理编码任务上超越Claude和GPT模型
Google 在 I/O 2026 开发者主题演讲中宣布从 AI 助手向自主代理转型,重点发布 Gemini 3.5 系列模型、升级 Antigravity 2.0 agent-first 开发平台,并推出 Android CLI、Android Bench、WebMCP 等新工具,帮助开发者构建高质量应用。
入选理由:Google 推出 Gemini 3.5 系列模型并升级 Antigravity 2.0 平台,支持跨平台终端沙箱、凭证掩码和强化 Git 策略的子代理编排
Google搜索上线搭载Gemini 3.5的统一AI搜索体验,支持多模态推理与智能体交互,但缺乏技术细节与实测数据,属产品发布通告而非深度技术分析。
入选理由:Google搜索整合Gemini 3.5模型,支持文本、图片、文件、视频的跨模态综合推理。
Gemini 3.5 标志着 Google AI 新纪元的开启,这是经过 2.5 年基础设施与团队建设后的成果,确立了“模型即产品”的战略核心。
入选理由:Gemini 3.5 is positioned as a milestone resulting from 2.5 years of infrastructure and team development.