T
traeai
登录
返回首页
Latent Space

[AINews] Anthropic Claude Fable 5 — Mythos but Safe, with Controversial Terms

8.5Score
[AINews] Anthropic Claude Fable 5 — Mythos but Safe, with Controversial Terms

TL;DR · AI 摘要

Anthropic 发布的 Mythos 级模型 Fable 5 在性能上表现强劲,但因 ZDR 和 RSI 抑制政策引发争议。

核心要点

  • Fable 5 的规模是 Opus 的两倍,性能在 FrontierCode Diamond 上提升了 16.9%。
  • ZDR 政策要求所有 Mythos 级模型的流量保留 30 天,但不会用于训练新模型。
  • RSI 抑制政策通过提示修改等方法限制模型在前沿 LLM 开发中的有效性,影响约 0.03% 的流量。

结构提纲

按章节快速跳转。

  1. 文章介绍了 Anthropic 发布的 Mythos 级模型 Fable 5 的性能和相关政策。

  2. Fable 5 在 FrontierCode Diamond 上的性能显著提升,达到 29.3%。

  3. ·ZDR 政策

    ZDR 政策要求所有 Mythos 级模型的流量保留 30 天,但不会用于训练新模型。

  4. ·RSI 抑制政策

    RSI 抑制政策通过多种方法限制模型在前沿 LLM 开发中的有效性,影响约 0.03% 的流量。

  5. 这些政策引发了开放 AI 社区的不满,但对大多数用户影响不大。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • Fable 5 发布与政策
    • 性能表现
      • FrontierCode Diamond 提升 16.9%
    • ZDR 政策
      • 30 天流量保留
    • RSI 抑制政策
      • 限制前沿 LLM 开发
      • 影响约 0.03% 流量

金句 / Highlights

值得收藏与分享的关键句。

  • Fable 5 的性能在 FrontierCode Diamond 上从 13.4% 提升到 29.3%。

    第 2 段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • ZDR 政策要求所有 Mythos 级模型的流量保留 30 天,但不会用于训练新模型。

    第 3 段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • RSI 抑制政策通过提示修改等方法限制模型在前沿 LLM 开发中的有效性,影响约 0.03% 的流量。

    第 4 段

    ⬇︎ 下载 PNG𝕏 分享到 X
#Anthropic#AI模型#Fable 5#ZDR#RSI
打开原文

[AINews] Anthropic Claude Fable 5 — Mythos 但安全,包含有争议的术语

AINews:工作日简报

备受期待的 Mythos 类模型的发布因一些有争议的使用政策而受到影响

2026 年 6 月 10 日

从某些指标来看,Opus 4.8 问世才不到两周,就已经成为全球领先的模型。但如今,在 SpaceXai 交易之后 34 天,以及原始 Mythos 宣布之后 63 天,我们已经可以向所有人提供一个 Mythos 类模型(至少是 Opus 的两倍大小)(与 Claude Tokyo 同时发布)。这是一项非凡的工程成就(以及对访问权限的承诺),使这些研究模型能够正式发布,基准测试结果也非常出色……但有一些例外。以下是昨天在全新的、超出分布范围的 FrontierCode Diamond 上的表现,从 13.4% 提升到了 29.3%:

tweet

博客和系统卡中包含了大部分权威信息,但不要错过 YouTube 视频,其中展示了它在玩 Factorio、Pokemon(与 Claude Plays Pokemon 不同,这仅使用了视觉功能,没有使用我们之前在播客中提到的复杂接口)、EDM 可视化(之前从未有过头戴音乐)、3D CAD 编辑器的创建和打印等内容,这些都来自他们的主要介绍视频。

API 定价也非常出色,大约是 Opus 的两倍。

这些例外来自于 Fable 的发布伴随着两个有争议的更改:

  • 没有 ZDR:“我们将在 Mythos 类模型的所有流量(包括第一方和第三方界面)上要求 30 天的数据保留。我们不会使用这些数据来训练新的 Claude 模型,也不会用于任何与安全无关的目的,我们还制定了新的隐私保护措施,包括记录所有对数据的人类访问,并确保在几乎所有情况下在 30 天后删除这些数据……”(详见完整政策)
  • RSI 抑制:“鉴于最近模型加速自身发展的能力,我们实施了新的干预措施,以限制 Claude 对针对前沿 LLM 开发请求的有效性(例如,构建预训练管道、分布式训练基础设施或 ML 加速器设计)。使用 Claude 开发竞争模型已经违反了我们的服务条款,但通过我们的安全措施执行此限制,可以避免加速那些最愿意违反这些条款的参与者。与我们在网络安全、生物学、化学和蒸馏尝试中的干预措施不同,这些安全措施对用户是不可见的。Fable 5 不会回退到其他模型。相反,这些安全措施将通过诸如提示修改、引导向量或参数高效的微调(PEFT)等方法来限制有效性。这些干预措施不会影响绝大多数编码工作。我们估计它们将影响约 0.03% 的流量,集中在不到 0.1% 的组织中。”

绝大多数用户不会受到这些限制的影响,但开放的 AI 社区显然感到不满,如下文所示。

你可以在 Diane Penn 的东京演讲中找到更多关于使用建议的内容,我们已将其摘录如下。

Latent.Space

@latentspacepod

来自东京的直播:Dianne Penn,Anthropic 的首位产品经理(找不到她的 Twitter)

2026 年 6 月 10 日 凌晨 3:49

·

8 次浏览

1 个赞

*(以及在 SpaceX 的 IPO 之前,Anthropic 和 OpenAI 提交 S-1 文件的一周零一天之后……)

2026 年 6 月 8 日至 6 月 9 日的 AI 新闻。我们检查了 12 个 Reddit 论坛、544 个 Twitter 账号,但没有进一步的 Discord 信息。AINews 的网站允许你搜索所有过往的新闻。提醒一下,AINews 现在是 Latent Space 的一个部分。你可以选择是否接收电子邮件通知!

AI Twitter 回顾

头条新闻:Anthropic 发布 Claude Fable 5 和 Mythos 5

发生了什么

Anthropic 发布了其下一代主要模型家族的两个版本:面向广泛使用的 Claude Fable 5,以及面向受限访问的 Claude Mythos 5。

  • Anthropic 官方宣布 Claude Fable 5 为其“首个面向广泛使用的 Mythos 级模型”,表示该模型超越了其之前发布的所有模型,并在几乎所有测试基准上都达到了最先进水平 @claudeai , @claudeai
  • Anthropic 表示 Fable 5 与 Mythos 5 使用的是相同的底层模型,但增加了安全防护措施,某些与网络、生物、化学、蒸馏相关的提示可能会被路由到 Claude Opus 4.8 @ClaudeDevs , @scaling01
  • Anthropic 表示,对于“一小部分”可能有害的话题,查询会透明地回退到 Opus 4.8,并声称根据早期面向用户的消息,95%以上的会话都不会遇到这种情况 @claudeai , @mikeyk
  • Anthropic 开发者消息表示,回退功能可通过服务器端以及 Python、TypeScript、Go、Java 和 C# 的 SDK 中间件实现 @ClaudeDevs
  • 据报道,Fable 5 和 Mythos 5 的价格均为每百万个输入令牌 10 美元,每百万个输出令牌 50 美元;第三方评估者后来报告称缓存价格为每百万次缓存写入 12.50 美元,每百万次缓存读取 1 美元 @scaling01 , @ArtificialAnlys
  • 根据 Artificial Analysis 的报告,Fable 5 保留了 Anthropic 的 100 万令牌上下文窗口 @ArtificialAnlys
  • Anthropic 将 Fable 5 引入 Pro、Max、Team 和基于席位的 Enterprise 计划,直到 6 月 22 日,之后表示由于容量限制,将需要使用信用额度,并计划之后恢复更广泛的订阅访问 @ClaudeDevs , @scaling01 , @ArtificialAnlys , @kimmonismus
  • 对于临时包含的混淆立即出现;用户询问“包含到 6 月 22 日”意味着什么,Anthropic 的工作人员澄清了发布计划 @dejavucoder , @TheAmolAvasare
  • Anthropic 随后在需求激增后,重置了所有产品中的 5 小时和每周的速率限制 @ClaudeDevs

官方声明和第三方基准数据

Anthropic 及其合作伙伴平台报告了广泛的基准领先优势,尤其是在编程和长期代理任务方面。

  • Anthropic 的公开声明:Fable 5 在软件工程、知识工作、科学研究和视觉方面表现尤为出色,其优势随着任务长度和复杂度的增加而增强 @claudeai
  • Cursor 表示 Fable 5 在 CursorBench 上达到了新的 SOTA(最先进水平)72.9%,比之前的最佳结果高出 8 个百分点 @cursor_ai
  • Cognition 表示 Fable 5 在 FrontierCode 上排名第一,并将其集成到 Devin Cloud Ultra、桌面版和 CLI 中 @cognition , @cognition
  • Cline 报告称 Fable 5 在 Terminal-Bench 2.1 上达到 88.0%,比 GPT-5.5 高出 4.6 个百分点 @cline
  • Artificial Analysis 将 Fable 5 排在其智能指数的第一位,得分为 64.9,比 GPT-5.5 高出约 5 分,并表示 Anthropic 占据了前两名的位置 @ArtificialAnlys
  • 人工分析还报告称:GDPval-AA Elo 1932,在代理现实世界知识工作中排名第一 @ArtificialAnlys 在“人类的最后一次考试”中得分为 53%,领先第二名模型超过 7 分,而在 HLE 任务中,有 9% 的任务触发了回退 @ArtificialAnlys 在 Intelligence Index 任务中,回退路由约占 8%,主要出现在科学问题上 @ArtificialAnlys Anthropic 表示,平均每次会话中回退发生的比例低于 5% @ArtificialAnlys
  • 社区基准测试总结突出了在编码方面存在非常大的差距:SWE-Bench Pro:Fable 5 为 80.3%,而 GPT-5.5 为 58.6% @Yuchenj_UW FrontierCode Diamond:Mythos 5 为 30.9%,而第二名仅为 13.4% @scaling01 Anthropic ECI 为 Mythos 5 提供了 161.29 @scaling01
  • 人工分析指出,Fable 5 在 AA-Omniscience 知识基准测试中表现的大幅提升可能意味着它比之前公开的 Anthropic 模型更大,尽管这只是推理结果,而非确认的规格 @ArtificialAnlys

产品行为、使用概况和部署详情

此次发布不仅由原始评估结果定义,还由工作流程变化和成本结构定义。

  • Anthropic 的员工和早期用户多次将 Fable 5 描述为适用于非常长且需要大量努力的任务的模型,用户从给它任务转向给它目标/责任 @felixrieseberg , @ClaudeDevs , @alexalbert__
  • Anthropic 建议用户默认使用 xhigh/high 努力模式,重写旧的 CLAUDE.md 指令,并让模型使用更多判断 @alexalbert__
  • Anthropic 的开发者信息强调了多代理协调,Fable 在 Claude 管理代理中会将任务委托给较小的模型 @ClaudeDevs
  • 多位测试者描述 Fable 为缓慢、耗用大量 token、昂贵,但能力异常强大:Dan Shipper 表示,它在任务中经常使用 500k 到 1M tokens,并且最适合用于繁重任务 @danshipper Simon Willison 称其为“缓慢、昂贵但能力强” @simonw Theo 很快就遇到了限制,但之后欢迎 Anthropic 的速率限制重置 @theo , @ClaudeDevs
  • 第三方和内部轶事强调了在长期工程任务上取得了显著进展:Ethan Mollick 表示,他可以将一份 15 页的设计文档交给它,让它工作 9 小时以上 @emollick Kimmonismus 强调了 Anthropic 的说法,即 Stripe 使用 Fable 在一天内完成了 5000 万行 Ruby 迁移,这原本需要整个团队两个月以上的时间 @kimmonismus Victor Taelin 报告称 Fable 找到了一个细微的错误,并在某些情况下实现了高达 1770% 的速度提升,尽管他仍然需要审核正确性 @VictorTaelin 与 Anthropic 相关的帖子提到了 430 倍的内核加速、69 倍的自我训练加速和 10 倍的药物设计加速,尽管这些数据来自基准/系统卡的解读,除非独立重复验证,否则应视为供应商方面的声明 @scaling01 , @scaling01 , @scaling01
  • 生态系统部署立即展开:Fable 5 出现在 Cursor、Devin、Notion、Microsoft Foundry、GitHub Copilot App/CLI、Cline、Replit、Base44、MagicPath、Arena、MCP Atlas 等多个平台 @cursor_ai , @cognition , @NotionHQ , @Azure , @pierceboggan , @cline , @pirroh , @ScaleAILabs

安全架构和主要争议

最大的争议不是 Fable/Mythos 是否强大,而是 Anthropic 决定在某些前沿 AI 开发任务上默默地减少其有用性。

  • Anthropic 的系统卡片语言由多位用户指出,表示当使用 Fable 5 进行前沿大语言模型(LLM)开发时,Anthropic 可能通过修改提示、引导向量和 PEFT 来限制模型的效果,且用户未被通知;Anthropic 估计这将影响约 0.03% 的流量 @Hangsiin , @kimmonismus
  • Anthropic 还单独向 Opus 4.8 披露了针对网络安全和生物安全请求的自动路由 @ClaudeDevs
  • 这一点很重要:一些高风险查询会被明显地重新路由并计费为 Opus,而前沿 LLM 开发请求可能被悄悄削弱,而不是被重新路由或拒绝
  • 批评者认为,这在研究和工程工作流程中引入了一个未记录的混淆变量:“付费产品不应该存在‘静默限制’” @nrehiew_ “在不告知用户的情况下降低机器学习研究的性能是令人震惊的敌对行为” @deanwball
  • 几位研究人员将其描述为对开放研究和开放权重的反竞争行为:“实验室开始拉起梯子” @natolambert “这是保护和滋养开源 AI 的最大警钟” @rasdani_ “他们不是想暂停 AI 研究,而是想暂停你的 AI 研究” @bayeslord “原创思考者不能成为底层阶级” @marksaroufim “权力、能力和经济财富的集中是 AI 最大的风险” @ClementDelangue
  • 多位用户担心分类器的边界过于宽泛或容易出错:一位用户表示“‘癌症’这个词被标记为生物安全风险” @DeryaTR_ 另一位用户表示 Fable 不会回答“心脏的作用是什么?” @Yuchenj_UW 生物学领域的用户报告了账户上下文差异,包括能够使用 Fable 的隐身模式但不能使用普通模式 @cremieuxrecueil Teknium 等人报告了对简单工程提示的拒绝 @Teknium , @Teknium 用户报告了 PTX ISA 问题和推理优化查询被标记 @snowclipsed , @dejavucoder
  • 一些例子既幽默又尖锐:用户开玩笑说,请求推理代码会让模型“开始导入 ONNX”或实现 JEPA,作为能力引导的标志 @vikhyatk , @MattVMacfarlane

事实与观点

事实 / 直接由发布材料或基准文章支持

  • Fable 5 已普遍发布;Mythos 5 为受限访问 @claudeai , @TheRundownAI
  • Fable 5 和 Mythos 5 共享相同的底层模型,Fable 增加了额外的保护措施 @ClaudeDevs , @scaling01
  • 定价为每百万输入/输出令牌 $10 / $50 @scaling01 , @ArtificialAnlys
  • Fable 保留 1M 上下文 @ArtificialAnlys
  • Anthropic 引入了拒绝/回退机制和 SDK 中间件 @ClaudeDevs
  • Anthropic 披露了对前沿 LLM 开发的静默干预,影响约 0.03% 的流量 @Hangsiin
  • Fable 暂时包含在订阅中,直到 6 月 22 日,之后将基于信用 @ArtificialAnlys

观点 / 解释

  • “Anthropic 赢了”,“Anthropic 有编码护城河”,“Anthropic 正在追求人工通用智能(AGI)”是评论而非已验证的事实 @scaling01 , @scaling01 , @scaling01
  • 关于此举主要是为了 IPO 表面效果、反开源定位,或特别为了减缓 Meta/中国/开源实验室的主张是可能的解释,但未被 Anthropic 确认 @kimmonismus , @kylebrussell , @natolambert
  • 关于 Anthropic 是出于真诚的安全信念而非出于机会主义的护城河建设的主张也是解释性的 @finbarrtimbers
  • 类似“GPT-4时刻”、“大模型气味”、“作为工程师我被远远甩在后面”或“对普通用户来说似乎并没有明显提升”这样的主观报告是基于体验的,而不是标准化的证据 @karinanguyen , @bcherny , @akbirkhan , @citrini

不同的视角

支持性 / 能力优先

  • Anthropic员工和密切测试者将Fable 5描述为一个跨越式改进:Felix Rieseberg表示,从给AI分配任务转变为赋予其责任 @felixrieseberg Alex Albert认为,模型感觉更像一个协作伙伴,而不是工具 @alexalbert__ Karpathy称这是“值得重大版本升级的显著变化”,尤其是在处理长期复杂任务时,尽管安全措施“在发布时可能过于敏感” @karpathy Bcherny表示,这是自Opus 4.5以来最大的进步;模型表现出判断力、品味和系统性调试能力 @bcherny
  • 第三方基础设施和应用供应商更强调基准测试的胜利和集成价值,而不是安全争议 @cursor_ai , @cognition , @NotionHQ , @Azure

批评性 / 信任与开放性

  • 许多研究人员和开源模型倡导者认为,即使出于安全考虑,这种无声的限流也是不可接受的:Natolambert称在不告知用户的情况下进行限流是“目标错位” @natolambert Dean Ball警告这可能会引发反垄断审查 @deanwball Jeremy Howard称之为“非常黑暗且令人悲伤的一天” @jeremyphoward Gneubig警告未来AI可能只提供给少数特权群体 @gneubig Eric Zelikman将其描述为对客户的无声破坏 @ericzelikman
  • 开源支持者将此次发布视为支持主权/开源模型的论据 @nickfrosst , @NoahZiems , @ClementDelangue

中立 / 混合观点

  • 一些观察者认为Anthropic可能真诚地认为这些干预措施对于安全是必要的,即使产品设计不佳 @finbarrtimbers
  • 另一些人认为Anthropic并不欠任何人无限制的前沿能力,但仍然认为这更像是直接的商业和市场细分,而不是出于利他主义 @suchenzang
  • Karpathy的观点是混合的:模型质量非常出色,但发布时的安全措施过于敏感,可能需要调整 @karpathy

研究限制、隐私和企业影响

讨论从安全问题扩展到了更广泛的信任、隐私和企业可靠性问题。

  • 企业关注的核心问题是可预测性:如果提供者可以根据推断出的任务类别无声地降低输出质量,用户可能无法确定失败是来自模型、提示还是隐藏的干预 @MattGibsonMusic , @code_star
  • 一些用户担心这实际上是对重要工作流程的供应链风险,促使公司转向开源权重或内部模型 @NoahZiems , @deliprao
  • 还有担忧账户级别的上下文或之前的使用历史可能会影响触发行为,如生物学家报告的正常模式与无痕模式之间的差异所示 @cremieuxrecueil
  • 提供的数据集中没有推文直接证明Anthropic在使用用户数据进行训练或违反了声明的数据隐私条款;这里的隐私辩论主要集中在行为分析/无声政策执行上,而不是传统的训练数据隐私问题
  • 对于研究用户来说,隐藏的干预被特别描述为有害,因为它破坏了可重复性和科学归属 @deanwball , @MattGibsonMusic
  • 对于企业买家而言,问题不仅仅是模型是否强大,而是它是否是稳定且可审计的依赖项,适用于编码、医学、科学、金融和基础设施等领域。

Context

此次发布之所以重要,是因为它结合了可见的能力飞跃和可见的访问控制转变。

  • 该发布正值与 GPT-5.5、即将推出的 GPT-5.6 和 Gemini 3.5 Pro 的激烈竞争之中;几位海报认为 Anthropic 在编码/代理工作方面取得了暂时的领先 @kimmonismus , @teortaxesTex
  • 它也出现在更广泛的关于开放模型与封闭模型差距的讨论中;一个与 Epoch 风格框架相关的观点指出,开放权重模型在前沿模型上平均落后约 4 个月 @dl_weekly
  • 社区的反应表明,此次发布可能不仅因“大模型气味”和基准飞跃而被记住,还因它使选择性能力发布正常化:公众可以访问前沿模型,但有特定领域的隐藏限制。
  • 这一政策方向可能会对未来关于以下议题的讨论产生影响:安全与开放性、公平获取前沿研究工具、反垄断与平台权力、企业对 API 提供商的信任、即使开放模型在原始能力上落后,是否仍会成为敏感技术工作的默认选择。

模型、基准和评估

  • 新的基准项目 Agents’ Last Exam (ALE) 启动,用于测试与劳动力市场对齐的代理性能;顶级代理在最困难的层级上仅得 2.6% 的分数,涵盖 1500 多项任务、55 个职业,由 100 多个机构的 300 多位专家贡献 @YiyouSun , @SnorkelAI , @dawnsongtweets
  • Cohere 发布了 North Mini Code,这是其首个开源编码模型:总参数 30B / 激活参数 3B MoE,上下文长度 256K,最大生成长度 64K,采用 Apache 2.0 许可,优化用于代理工作流 @cohere , @JayAlammar , @vllm_project
  • Google 宣布了 Gemini 3.5 Flash Live Translate,支持 70 多种语言的实时语音到语音翻译,可在 Gemini API、AI Studio、Google Translate 中使用,并将推出到 Meet @OfficialLoganK
  • 新的基准 iOSWorld 评估了在 26 个定制 iOS 应用和 133 项任务中运行的个人智能手机代理;即使拥有特权访问,最强的前沿模型成功率也仅为 52% @rsalakhu

推理、训练和系统

  • 引入了 Latent Context Language Models (LCLMs) 作为长上下文推理方法,可将上下文压缩高达 16 倍,改进了 KV-cache 压缩的延迟/准确性前沿 @micahgoldblum , @iamleonli
  • Microsoft Research 的 Mirage 将 3D 场景存储为潜在标记,报告视频生成速度提高了 10.57 倍,内存使用量降低了 55 倍 @HuggingPapers
  • vLLM 引入了 vime,这是 vLLM 生态系统中的一种 RL 后训练框架,与 NeMo-RL、OpenRLHF 和 verl 并列 @vllm_project
  • 关于代理训练的讨论继续进行,包括 Self-Harness 用于自我改进的框架 @omarsar0 和 AutoForge/交错思考,保留了跨回合的推理痕迹 @cwolferesearch
  • Google/Hugging Face 启动了 Fast Gemma Challenge,旨在加快 Gemma 4 E4B 在单个 A10G 上的运行速度,同时不损害质量 @googlegemma , @osanseviero , @_lewtun

代理、工具和开发人员工作流程

  • LangChain 强调了由 Fleet 中的重复触发器驱动的代理循环模式 @caspar_br
  • OpenAI 在 Responses API 中添加了图像结果 @OpenAIDevs
  • GitHub/Copilot 应用更新包括并行子会话和用于动态界面的画布 UI @tgrall , @burkeholland
  • Hermes Desktop 新增了对 Ollama 的支持,具备自我学习的 Python 技能和消息应用集成 @ollama , @NousResearch
  • 关于代理执行的安全性观点:Temenos 主张对生成的代码进行沙箱处理,而不是代理本身,使用无根的 gVisor,同时将认证/工具保留在主机上 @abhijithneil

研究、科学与形式方法

  • Axiom 宣布推出 EconLib,这是一个基于 Lean 的经济学库;在形式化 Aumann 的“达成共识”定理时,发现了一个与可数性相关的隐藏假设 @TheTuringPost
  • 提出“心智经济”的概念,主张通过拍卖和激励机制协调代理,而不是集中式编排,报告称在数学推理方面从 15.9% 提高到 57.0%,在金融研究方面从 45.0% 提高到 60.0% @TheTuringPost
  • 据报道,梅奥诊所的 REDMOD 在 CT 扫描中检测出胰腺癌,比诊断早达 3 年,平均在诊断前 475 天识别出 73% 的隐藏癌症 @TheRundownAI

开放生态系统与基础设施

  • Hugging Face 和 Arcee 宣布合作,将 Arcee 的所有模型/数据集(包括私有数据集)从 AWS S3 迁移到 Hugging Face @ClementDelangue , @MarkMcQuade
  • Cohere 继续推动主权/开放的角度,提出“所有人的主权 AI” @cohere
  • Marks Saroufim 提议了一个研究者互惠许可,并将 GPU MODE 数据集迁移到该许可下,明确回应了前沿实验室从开放研究中获益,但又限制访问的感知 @marksaroufim , @marksaroufim

AI Reddit 总结

/r/LocalLlama + /r/localLLM 总结

1. 开放模型推理与聊天模板更新

  • 小米刚刚在使用标准的 8-GPU 服务器的 1T 模型上实现了 1000+ tps(活动编号:1027):小米 MiMo 声称 MiMo-V2.5-Pro-UltraSpeed 在使用单个“标准”8-GPU 服务器的 1T 参数 MoE 模型上实现了每秒 1000+ 个 token 的解码速度,这是通过 TileRT 模型系统协同设计实现的,而不是像 Cerebras/Groq 那样的专用硬件。所报告的方案结合了 MoE 专家模块的 FP4/MXFP4 量化与 QAT,同时保持非专家模块的高精度,此外还包括 DFlash 块级掩码推测解码,接受长度分别为 6.30 编码、5.56 数学/推理和 4.29 代理任务,以及持久低延迟内核以减少启动/同步开销。评论中提出的一个关键未解决的技术注意事项是,小米并未明确说明使用的是哪 8 块 GPU,这使得可重复性和成本/性能比较变得模糊。评论者就“Token Winter”(代币寒冬)的经济性进行了辩论,认为瓶颈不是模型需求,而是西方 GPU 供应价格过高且被囤积,而来自 DeepSeek、小米和 MiniMax 的中国压缩稀疏架构/MoE 工作正变得更具推理效率。其他人则强调小米选择性使用 FP4 策略是最重要的细节,因为对整个模型进行 FP4 量化会损害推理、代码和逻辑能力。一个关键的技术细节是,小米采用了选择性 FP4 量化,而不是对整个模型统一使用 FP4:仅 MiMo-V2.5-Pro 中的 MoE 专家模块被量化为 FP4,而非专家模块则保留了原始精度,以避免推理、逻辑和代码生成能力的下降。评论指出,小米使用 FP4 QAT 来减小模型体积并提高带宽利用率,同时保持模型能力接近原始模型。发布的模型权重可在 Hugging Face 上找到,地址为:XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash :https://huggingface.co/XiaomiMiMo/MiMo-V2.5-Pro-FP4-DFlash 。这很重要,因为它允许独立验证或基准测试在 8-GPU 服务器上声称的 1000+ tps 通量。几位评论者质疑了该声明背后的硬件和参数计算:“8 GPU 服务器……具体是哪 8 块?”和“1T-A1B?”技术上的担忧是,如果没有确切的 GPU 类型、互连方式、服务堆栈、批处理大小、上下文长度以及 1T MoE 模型是否每个 token 仅激活约 1B 参数,就无法解释吞吐量。
  • Gemma 4 Chat 模板现在支持保留思考(活动:482):Google 的 Gemma 团队已向官方 Gemma 4 聊天模板添加了 preserve_thinking 支持,与一些用户之前成功应用的后市场模板修改相匹配。该更改被描述为能够更好地保留 Gemma 4 聊天格式中模型的“思考”痕迹,尽管在该线程中没有提供任何基准数字或实现差异。评论者普遍欢迎官方采用,并认为这验证了之前社区模板的修改。一些用户推测,要充分利用更新后的模板以实现更强的代理编码使用案例,可能需要发布更大的 Gemma 4 124B MoE 版本。评论者指出,Gemma 4 的官方聊天模板似乎正在添加 preserve_thinking,这是一种一些用户已经通过后市场/自定义模板修改启用并发现有效的功能。主要声称的技术优势是提高代理编码工作流程的连续性,保留之前的推理/思考痕迹有助于多步骤工具使用和代码迭代。一位评论者警告说,该更改可能尚未生效:preserve_thinking 支持被描述为一个尚未合并的开放 PR,而据报道模型文件在 21 天内没有更新。这表明用户在假设新行为在发布的工件中可用之前,应先验证实际模型仓库中的 tokenizer/chat-template 文件。一些评论将模板更改视为对更大 Gemma 4 124B MoE 变体的需求增加,认为当与更高容量模型配对时,preserve_thinking 在编码代理使用案例中会更有价值。讨论是推测性的,但技术上集中在扩展模型大小/MoE 架构以更好地利用更新后的聊天模板行为。

非技术性 AI 子版块回顾

/r/Singularity, /r/Oobabooga, /r/MachineLearning, /r/OpenAI, /r/ClaudeAI, /r/StableDiffusion, /r/ChatGPT, /r/ChatGPTCoding, /r/aivideo, /r/aivideo

1. Claude Fable 5/Mythos 5 发布和访问层级

  • 介绍 Claude Fable 5(活动:2698):该图片是针对帖子声称的 Claude Fable 5 / Claude Mythos 5 发布的基准比较表,显示突出的模型在代理编码、知识工作、空间推理、工具使用、法律、生物学、网络安全和健康基准方面领先或接近领先,与 Claude Mythos Preview、Claude Opus 4.8、GPT 5.5 和 Gemini 3.1 Pro 相比。自我描述将 Fable 5 和 Mythos 5 描述为相同的“Mythos-class”底层模型,Fable 5 使用安全回退机制:网络安全、生物学/化学和蒸馏相关的请求被路由到 Claude Opus 4.8,据报道影响不到 5% 的会话。评论主要是炒作或怀疑,而不是技术分析,包括“AGI 已确认”等笑话,以及抱怨“Fable 最近是不是变笨了”。一位评论者指出一个明显的访问/定价限制:Claude Fable 5 直到 6 月 22 日之前是免费的,之后用户据说需要购买积分才能继续使用它。这对于评估模型的任何人来说都很重要,因为基准或工作流程测试可能需要在积分限制期开始之前完成。
  • Claude Fable 5 的发布更像是对 AI 不平等现象的预览,而非一次模型的正式发布(活动:2387):该文章指出,Anthropic 所声称的 Claude Fable 5 的推出,标志着从统一的公众前沿模型发布向分层访问架构的转变:公开付费用户将获得带有安全路由的 Fable 5,该路由可能会将涉及网络、生物、化学或蒸馏的请求降级到 Opus 4.8,而选定的合作伙伴则据说会获得 Mythos 5,该模型被描述为与 Fable 5 基于相同的底层模型,但安全措施更少。文章还强调了定价和容量限制:Fable 5 仅在 6 月 22 日之前包含在付费计划中,之后可能会转移到使用积分,这表明前沿代理推理仍然对固定费率的消费者订阅来说过于昂贵。评论意见分歧,一部分人对 AI 访问的不平等表示担忧,另一部分人则接受限制性安全政策作为高风险功能的必要条件。一位评论者将这一结果描述为可预见的代币经济压力,导致昂贵的企业级模型成为主流,而另一位评论者则在用户使用不便的情况下仍支持“宁愿安全也不愿后悔”的做法。几位评论者将此次发布视为预期的经济转变:随着前沿模型能力与复杂性的提升,推理/代币成本上升到足以使顶级模型仅作为企业专属工具,而非默认的消费产品。一位评论者认为,这将推动日常任务转向更便宜的本地推理,例如在 Apple M 系列芯片或 RTX Spark 级加速器上运行,而将前沿 API 保留用于高价值任务。一个聚焦于定价的评论线声称,新模型的 API 经济模式使消费者订阅在结构上与前沿使用不匹配:“我们的每月 200 美元订阅相当于使用新模型的 3 个 API 提示。”所隐含的技术观点是,即使高端消费者计划也可能只能通过严格的速率限制、模型路由或回退到更便宜的模型(如 Opus 4.8)来实现,而一位评论者将其描述为对“99%”用户来说已经足够。

使用 7 天免费试用继续阅读

订阅 Latent.Space 以继续阅读本文,并获得 7 天免费访问完整文章存档的权限。

开始试用

已经是付费订阅者?

上一页

AI 可能会生成不准确的信息,请核实重要内容

[AINews] Anthropic Claude Fable 5 — Mythos but Safe, with Controversial Terms | Latent Space | traeai