Claude Fable 5 and new AI safety fables

TL;DR · AI 摘要
Anthropic 推出 Claude Fable 5,其能力显著提升,但伴随严格的限制措施,引发对 AI 安全与控制的讨论。
核心要点
- Claude Fable 5 是目前公开可用的最智能模型,性能远超现有 Opus 模型。
- 模型发布延迟两个月,可能因竞争压力和安全限制。
- Anthropic 采取了多种安全措施,部分限制用户可见,部分自动实施。
结构提纲
按章节快速跳转。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- Claude Fable 5 和 AI 安全
- 模型能力
- 性能卓越
- 远超 Opus 模型
- 安全措施
- 用户可见限制
- 自动实施限制
- 发布延迟
- 延迟两个月
- 竞争与安全因素
金句 / Highlights
值得收藏与分享的关键句。
Claude Fable 5 是目前公开可用的最智能模型,性能远超现有 Opus 模型。
模型发布延迟两个月,可能因竞争压力和安全限制。
Anthropic 采取了多种安全措施,部分限制用户可见,部分自动实施。
Claude Fable 5 和新的 AI 安全寓言 —— Nathan Lambert
Claude Fable 5 和新的 AI 安全寓言
向前沿 AI 系统的权力政治更进一步。
Nathan Lambert
2026 年 6 月 9 日
文章配音
0:00
-12:11
您的浏览器不支持音频播放。请升级浏览器。
今天,Anthropic 向消费者和企业用户发布了他们的 Claude Fable 5 模型。这是他们 Mythos 级模型的通用访问版本。随着这一发布,Anthropic 推出了一系列安全措施 —— 一些明确告知用户,一些则在不告知用户的情况下对模型进行了修改。这种 AI 能力的下一步进展伴随着更加强硬的安全措施,这并不令人意外,这表明 Anthropic 的意图是保护,或巩固他们目前的领先地位。
Anthropic 推出的这些不均衡实施的安全政策,正在成为如何狭隘和自我实现的安全与控制观念的经典警示寓言,这些观念很少能真正奏效。
世界上最聪明的模型
在深入探讨安全事实的细节之前,重要的是要确定这个模型的质量。模型的质量描绘了今天的情况 —— 这些安全功能正在实质性地改变对前沿 AI 的访问方式,这是现代 LLM 所不曾发生过的。其次,这些能力表明这个故事只会加速发展。从这里开始,递归自我改进并不是进步的正确心理模型,但 Claude Fable 5 应该清楚地表明,在训练 LLM 方面没有立即的障碍。
首先,Claude Fable 5 无疑是目前公众可用的最聪明的模型 —— 在几乎所有相关基准测试中都取得了显著的飞跃 —— 价格仅为当前 Opus 模型的两倍(这仍然低于 GPT 5.5 Pro 的变体)。仅凭这一点,这已经是该领域的一个里程碑时刻。在 ChatGPT 之后的 LLM 竞赛进行几年后,一个模型迭代在能力上取得如此重大的进步,令人惊叹。这个模型没有明显的突破,比如推理时间扩展或强化学习,而公开的共识是,这是通过整个技术栈的改进实现的(当然,我们无法确定 —— 这没有被记录)。这是一个重大的技术成就,构建这个模型的员工应该为他们的工作感到非常自豪。
这个模型在训练完成后延迟了 2 个多月才向公众发布。考虑到 AI 经济的竞争动态,这个模型的更聪明版本已经在进行中。
继续,模型的基准测试结果如下所示。
这些分数的一个注释是,这些分数不一定是公众将获得的分数,因为当前模型的安全过滤器会使某些提示降级到 Opus 4.8。
这种基准分数的飞跃,即使我不需要对模型进行实质性测试,我也知道它是一个不可思议的工具。请记住,Anthropic 也是在 AI 实验室中对基准测试最不关心的实验室(特别是与 OpenAI 和 Gemini 相比)。回想一下我在 2025 年 6 月说过的一句话:
这是一条与行业以往不同的道路,它将采用一种我们不习惯的沟通方式。未来将会有更多像 Anthropic 的 Claude 4 这样的发布,其基准测试的提升微乎其微,但在现实世界中的进步却是一大飞跃。这将带来许多政策、评估和透明度方面的深远影响。要理解进步的节奏是否持续,将需要更多的细致分析,尤其是人工智能的批评者们将抓住评估停滞不前的机会,声称人工智能已经不再有效。
显然,进步的动力学中有一些方面已经发生了变化,但这些内容将留待另一篇文章讨论。我今年已经写过几篇文章,专门讨论新模型,特别是关于为何难以信任基准测试(部分原因在于基准测试本身变化不大)。总体而言,这为那些意识到自己可能再也无法编写有意义代码的人提供了重大验证,他们需要围绕代理开发新的工作流程。
Interconnects AI 是由读者支持的出版物。请考虑成为订阅者。
更智能的模型催生新的安全博弈
此次发布涉及多种安全工具,包括但不限于强制性的数据保留政策和新增的提示过滤器。通过此次分析,明确而清晰地指出哪些部分导致了危害,以及为何在整体政策全面的情况下,某些单一元素的缺失对整体安全流程如此有害,这一点尤为重要。
在网络安全、定向模型蒸馏和研究生物学方面,Anthropic 在其博客文章中详细介绍了新的安全分类器:
Fable 5 带来了一套新的分类器:独立的人工智能系统,用于检测潜在的滥用行为,包括越狱尝试,并阻止主模型(在此情况下为 Fable 5)作出回应。我们已经对模型运行分类器一段时间了,Fable 5 的分类器是先前工作的延伸,覆盖范围更广。当 Fable 的分类器检测到与网络安全、生物学或化学、蒸馏相关的请求时,响应将自动由 Claude Opus 4.8 处理。每当发生这种情况时,用户将被通知。Opus 4.8 本身是一个功能强大的模型:与 Fable 直接拒绝相比,退回到 Opus 的响应体验要好得多。我们的早期数据显示,超过 95% 的 Fable 会话根本不需要回退——对于这些会话,Fable 5 的表现与 Mythos 5 几乎完全相同。
主要的网络安全和生物学安全过滤器的示例——这些过滤器会在触发时明确通知用户——已经在网络上广泛传播,且显得非常敏感。这些对用户来说可能令人沮丧,但 Anthropic 明确有权这么做,而且在逻辑上也是一致的。
安全故事中最具破坏性的部分在 Claude Fable 5 & Claude Mythos 5 系统卡中有所体现:
我们还增加了与前沿大型语言模型(LLM)开发相关的保护措施。正如我们在2026年2月《风险报告》第6.1节中所讨论的,我们担心加速人工智能整体发展速度所带来的风险,尽管我们仍不确定这些风险的严重程度。特别是,我们的担忧在于——正如我们当时所写——“加速其他AI开发者构建具有类似风险的强大AI系统,而这些系统可能并不具备相应的安全措施。”鉴于近期模型自身加速发展的能力,我们已实施了新的干预措施,以限制Claude在针对前沿LLM开发的请求(例如构建预训练流水线、分布式训练基础设施或机器学习加速器设计)中的有效性。使用Claude来开发竞争性模型已经违反了我们的服务条款,但通过这些保护措施来执行这一限制,可以避免那些最有可能违反这些条款的参与者加速发展。与我们在网络安全、生物学、化学以及蒸馏尝试方面的干预措施不同,这些保护措施对用户是不可见的。Fable 5不会回退到其他模型。相反,这些保护措施将通过诸如提示修改、引导向量或参数高效微调(PEFT)等方法来限制其效果。
Anthropic文档中提到,这将影响一小部分用户,这确实是事实。我关注的是那些支持AI能力扩散和理解的少量用户,这些用户在前沿实验室之外,是技术持续安全的关键机制。
Anthropic正在记录AI能力扩散对他们而言是一个担忧,但他们通过误导用户来解决这一问题。一个在没有通知我的情况下自动变得不那么智能的AI模型,是绝对与目标不一致的AI。沿着这条路线的下一步——尽管Anthropic并未这么做,但他们有可能——是让模型在认为AI使用不安全时,悄悄地操控工作场所。第二,这里的实施比网络安全或生物学领域所记录的要复杂得多——修改模型本身或呈现给模型的数据,所有这些都无需通知用户。
这些政策的双重性非常令人困惑,显示出强烈的不一致性,让人对其安全政策产生怀疑。这种“安全”措施实际上更多地是为了维护他们的竞争优势。再次强调,如果所有的安全政策都采取一种形式,这将更加清晰且更容易被理智支持。
Anthropic一直公开表示,他们对来自中国特定行为者的蒸馏攻击表示担忧。他们的声明缺乏足够的事实透明度——或解释为何无法阻止这种行为——因此难以让人完全相信。尽管信息有限,在更广泛的AI和DC(深度计算)社区中,人们已经就基于所述蒸馏问题对中国的模型构建者采取行动进行了严肃的讨论。
在蒸馏问题上,我的假设是,API构建者在防止黑客攻击或越狱方面并不容易,因为推理模型本身具有强烈的内在属性,即倾向于输出推理过程,而完全修补这种行为会使模型变得不那么智能。这一假设基于以下几个前提:
- 中国的实验室不仅仅是作为客户使用 Anthropic 的 API 并以预期的输入输出形式支付 token 费用。如果这些中国实验室实际上是在支付预期使用行为的费用,尽管这违反了条款和条件,我对那些表现出政策行动对抗这种行为的前沿实验室并没有太多同情。
- 推理轨迹在引导下游模型行为方面特别有效。
- 领先的实验室非常努力地修补这些越狱行为的管道。
因此,我的逻辑结论是,模型公司必须削弱其经济地位,才能充分保护其知识产权。如果确实如此,Anthropic 通过透明化操作将获得更多人工智能研究社区的同情。这也将使政策讨论更加有据可依,而不再需要我提出奥卡姆剃刀式的解释来描述 API 越狱的外观。
构建这些安全措施并不是 Anthropic 独自应该做的事情。安全研究应建立在实验室和公共研究努力之间的共同理解和信息共享基础之上。
如果确切的安全程序实际上是公司的首要事项——对领导层而言是真正不可协商的——他们就不会允许模型在他们关注的领域(前沿 AI 训练)中以模糊实施的安全过滤器发布。我在此提问:为什么没有一个分类器来降级 AI 研究请求?这结合了透明且合理的安全政策与悄然推出市场巩固策略。
我个人无法信任世界上最好的 AI 模型在我的专业领域中构建模型,而我构建这些模型完全出于对确保向非常强大的 AI 系统过渡对社会有利的热情。这不可避免地会让人感觉像是 Anthropic 领导层的优越性宣言。
控制问题与开源作为唯一答案
Anthropic 所采取的所有行动,包括指责较小的中国公司进行蒸馏,都在他们的权利范围内。事实上,许多人已经预料到领先的前沿模型将被从用户中排除,以便实验室能够保护其知识产权。今天的行为忽略了 AI 始终是一个生态系统的整体图景,而培养领先公司与其他参与者之间的“我们 vs 他们”动态在结构上是不稳定的。
请记住,这正是 AI 生态系统首次出现对 AI 领导者暴力行为的时刻——我从很多人那里听到,他们并不认为这种趋势会减弱。我希望自己知道如何更多地参与以防止这种情况发生,而我看到自己在非营利部门的角色,是能够独立代表 AI 向更广泛的利益相关者发声的人。
我相信,Anthropic 领导层对 AI 有着狭隘培养的世界观,这里存在某种误解或至少是误读。今天我感受到的压倒性情绪是责任和困惑。我分享了我其实并不想与 Anthropic 对抗,但他们在对中国的不必要敌意、对开源权重模型的隐晦敌意,以及现在对开源 AI 研究的更广泛敌意,让我感到如此。
我理解 Anthropic 对 AI 有其特定的看法,但如此强大的技术最终的平衡状态,绝不可能是被一家私营公司单独控制。Anthropic 今年早些时候在与国防部的争执中就展示了这一点——这表明长期来看,政府要么希望 AI 由他们自己掌控,要么希望 AI 是开放的。这让我相信,一个开放的生态系统才是更安全的结果。
这些事件让我感到,Anthropic 的领导层似乎有一种文化,使他们不由自主地快速应对这些问题——与现有的权力结构正面交锋。这在 AI 生态系统亟需稳定的时候,带来了巨大的不确定性。
综合来看,过去一周可以被视为美国一个全新开源生态系统崛起的重要转折点。Nvidia 上周发布了他们的首个旗舰模型——Nemotron 3 Ultra,而 Anthropic 的这些举动也激发了我那些正在构建开源模型的同行们一致的动机和担忧。我们需要一种可以信任、可以修改、可以控制的智能。
美国的开源生态系统已经站稳了脚跟,并且不断获得更多理由去争取其领导地位,而这些理由正是来自那些直接削弱它的公司的手中。这就是这个寓言所传达的寓意。
Fable 的价格为每百万个输入令牌 10 美元,每百万个输出令牌 50 美元。
基于原始的 Mythos 发布情况,这是一个不完美的指标。
Fable 确认了这些是不同的机制。
上一页