Fable 5自带反蒸馏机制!检测到就降智,误触率高到离谱
TL;DR · AI 摘要
Fable 5模型内置反蒸馏机制,检测到潜在训练行为时会自动降智,误触率远超官方宣称的5%。
核心要点
- Fable 5的反蒸馏机制会自动降低回答质量,且不通知用户。
- 安全检测误触率远高于官方宣称的5%,影响正常使用。
- Anthropic采用两阶段检测系统,包括内部激活值筛查和独立分类器判断。
结构提纲
按章节快速跳转。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- Fable 5模型与反蒸馏机制
- 模型特性
- Mythos级别能力
- 安全护栏
- 反蒸馏机制
- 检测潜在训练行为
- 自动降智
- 不通知用户
- 用户反馈
- 误触率高
- 影响使用
金句 / Highlights
值得收藏与分享的关键句。
Fable 5的反蒸馏机制会自动降低回答质量,且不通知用户。
安全检测误触率远高于官方宣称的5%,影响正常使用。
系统通过两阶段检测机制,包括内部激活值筛查和独立分类器判断。
Fable 5自带反蒸馏机制!检测到就降智,误触率高到离谱 – 量子位
扫码关注量子位
<div class="top_search"> <form role="search" method="get" class="search-form" action="https://www.qbitai.com/" id="search"> <label> <input type="search" class="search-field" placeholder="搜索…" value="" name="s"> </label> <button type="submit" class="search-submit"></button> </form> </div>
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">
articlead begin
articlead end
Fable 5自带反蒸馏机制!检测到就降智,误触率高到离谱
henry
2026-06-11
12:16:20
来源:
量子位
摘要样式
Claude刚刚发布的新模型Fable 5,很多人可能压根就用不上!
henry 发自 凹非寺 量子位 | 公众号 QbitAI
都先别急着吹!
Claude刚刚发布的新模型 Fable 5 ,很多人可能压根就用不上!
有不少网友实测发现,Fable 5的安全护栏检测机制的触发几率似乎比官方宣称的 不到5% 严格得多。
无论是普通编码任务。
还是简单打个招呼,都有可能被自动路由回老模型Opus 4.8。
更离谱的是,我自己也中招了。我让Claude帮我搜点资料,丰富一下背景。
结果它想了两步,啪——切Opus了。
换句话说。你以为自己在用Anthropic刚发布的最强模型,实际上聊着聊着,对面已经偷偷换人了。
而且不光是安全检测容易误伤,更绝的还在后头:
Anthropic还在长达319页的系统卡里埋了一套 防蒸馏 机制。
如果系统怀疑你想拿Claude的输出训练自己的AI模型,它甚至不会告诉你发生了什么,而是直接降低Fable的回答质量。
可以说,前一手防你作恶,后一手防你抄作业,相当符合A社的一贯风格。
寓言怎么老变成章鱼?
先给今天没刷新闻的大伙补个课。
今天凌晨,Anthropic终于发布了预热许久的两款模型——
「神话」(Mythos)和「寓言」(Fable)。
其中,Fable 5最大的看点,是Anthropic第一次把Mythos级别能力向普通用户开放。
而Fable与正式版Mythos的差别在于,多了一个安全护栏。
目前,Fable免费开放给所有人到22号(22号只能通过API用),Mythos则还是开放给Claude部分的合作伙伴。
在官方介绍里,Fable的软件工程、知识工作、视觉理解能力全面增强,超过此前所有公开发布的Claude模型。
一句话速通理解就是,这俩就是现在的大模型天花板,各方面能力都已经到顶了。
新模型一经发出,刚入职A社的卡帕西第一时间夸了一波。
Claude Code之父Boris也对它赞不绝口。
不过,厉害归厉害,真让大伙用起来后,才发现,这寓言讲着讲着,老变成章鱼(Opus)。
原因也简单。
Anthropic给Fable装了一套分类器,只要它觉得你聊的是网络安全、生物、化学,或者想拿Claude蒸馏训练自家模型,就会自动把会话切给Opus 4.8。
这条规则白纸黑字写在系统卡第12页。
实际体验中,切换发生在Fable的思考过程中,当它自己感觉不对劲,也不会问你,就直接切了。
如果想继续用?要么把提示词改到它满意,要么重开一个窗口。
官方在技术博客里说,这套检测平均触发率不到5%。但网友很快发现,这5%不像5%。
有人表示,自己就是分析个代码,也被切了。
搞安全审计的更是直呼被针对,活儿没法干了。
还有人说压根用不了,审查代码库都会被Fable拒绝。
要说,最离谱的可能就是有网友把Fable自己的系统卡丢给它,让他解读一下,它也给你切了。
还有一名从事生物医学的科学家表示,这压根都没法用Fable工作,因为诠释违禁词。
而这并不是孤例,不少生物学网友都反映,Fable压根难以使用。
Boris在评论区承认了这个问题,表示正在处理。
这事儿真正微妙的地方在于,Fable在上面三种高风险场景下,至少会告诉你一声:
“哥们儿,我给你换模型了。”
但如果它怀疑你在研究怎么训练下一代大模型,那就进入另一个模式。
系统卡写明,重点针对的场景包括:限制Claude在前沿LLM开发请求上的有效性,例如搭建预训练流水线、分布式训练基础设施,或者ML加速器设计。
在这种场场景下,Claude不切模型,不弹提示,不通知用户,而是坐在那里,悄悄把自己调笨一点。
Anthropic原文写得很学术:Prompt Modification、Steering Vector、PEFT。(系统卡第12页)
翻译成人话就是你以为自己在跟满血版Fable聊天,实际上对面已经偷偷开了省电模式。
A社这波,属实是把护城河直接焊进推理链里了。
至于系统怎么判断,系统卡第58-59页也写明白了。
Fable背后跑的是一套两阶段检测系统:
第一层探针会直接检查模型内部激活值(activation),筛查所有请求;第二层再交给独立分类器判断风险。
一旦命中,客户端就会自动切换到Opus 4.8。
Anthropic甚至在报告里承认,由于分类器在网络安全测试中几乎总会触发,因此Fable 5在网络安全任务上的实际表现,基本等同于Opus 4.8。
一言以蔽之呢,就是Fable 5目前也还是一个有条件释放的模型:
大部分场景享受Mythos 5级别能力,但在高风险领域自动降级为Opus 4.8的能力水平。
为啥Claude要这么干?
今天新模型上线,额度同步重置,大家上手之后越用越觉得不对劲,吐槽也越来越多,主要集中在两件事上。
第一件事,是前面提到的安全护栏触发频率。Anthropic说平均不到5%的会话会触发回退,但不少用户的体感显然不是5%。
第二件事,则是Fable的使用策略。
这次Anthropic并没有完全放开,而是采用了限量开放的方式。
与此同时,Fable的token消耗成本也明显高于Opus,接近后者两倍。
这就让不少订阅用户有点犯嘀咕:
如果最好的模型既有额度限制,又不一定能稳定用到,那以后会不会走向按量收费?
当然,也有人把原因归结到商业层面。
有网友认为,Anthropic现在正处在IPO前的关键阶段,需要向投资人证明自己依然掌握着最前沿的模型能力。
所以最强模型可以放出来展示,但不能毫无保留地放出来。
还有研究人员担心另一件事。
如果模型一旦识别到前沿LLM研发相关内容,就主动降低回答质量,那对学术研究和技术交流显然不是个好消息。
更关键的是,用户根本不知道这一切正在发生。它不会弹窗,不会提醒,不会告诉你答案为什么突然变差。
你只会觉得:今天的Claude,好像突然没那么聪明了。
对此,AI研究员Nathan Lambert的评价也很直接:
模型厂商给能力加护栏或许不可避免。
但至少应该告诉用户,前沿能力是什么时候被撤掉的。
参考链接: [1]https://www.anthropic.com/news/claude-fable-5-mythos-5 [2]https://www-cdn.anthropic.com/d00db56fa754a1b115b6dd7cb2e3c342ee809620.pdf
版权声明
版权所有,未经授权不得以任何形式转载及使用,违者必究。
Claude
作者文章列表
- Claude Fable 5省钱秘诀来了:调成Low档比Opus更便宜 2026-06-11
- 让矩阵归模拟,让逻辑归数字!这家中国团队重新定义了计算机 2026-06-08
- 马斯克39页SpaceX计划,人类史上最伟大的PPT 2026-06-07
- OpenAI芯片核心叛逃Anthropic!就在量产前夜 2026-06-07
左侧分享
扫码分享至朋友圈
相关阅读 start
相关阅读
#### Ilya左膀右臂被Claude团队挖走!奥特曼砍掉的超级对齐算力,Anthropic给了
国内模二代也遍地开花
衡宇
2024-05-29
OpenAI
RLHF
#### 13 vs 3,国产安全AI悄悄完成了对Claude的超越
不仅复现,还多找出10个0day漏洞
邓思邈
2026-03-02
安全Agent
安恒信息
#### Claude手搓3D建筑编辑器火爆GitHub!数万年费的专业软件瑟瑟发抖
还能2D、3D无缝联动
梦瑶
2026-03-30
3D设计
#### 大模型参与推理崩溃论战!从「思维错觉」到「错觉的错觉」再到「错觉的错觉的错觉」
闻乐
2025-06-20
AI大模型
苹果
#### AI“读书”合法了:美法院最新裁定,无需作者同意,已购书籍可用于训练AI
数据来源合法性>使用目的合法性
不圆
2025-06-26
Anthropic
侵权
#### Claude版Manus只用10天搓出,代码全AI写的!网友:小扎140亿并购像冤大头
还需要人类来规划、设计、让AI反复尝试
梦晨
2026-01-14
相关阅读 end
热门文章 start
热门文章
#### WPS笔记正式发布:AI贯穿记录、整理与复用全过程
2026-06-05
#### 100亿砸向人形,不如先让10万台机器狗走进家庭
#### 有人靠CPU把AI算力密度卷到了新高度
#### 腾讯想让企业打开AI的方式只剩一个
2026-06-09
#### B站宣布启动AI创造公开赛 打造中国版Build in Public
<form role="search" method="get" class="search-form" action="https://www.qbitai.com/"> <label> <span class="screen-reader-text">搜索:</span> <input type="search" class="search-field" placeholder="搜索…" value="" name="s" /> </label> <button type="submit" class="search-submit"><span class="screen-reader-text">搜索</span></button> </form>
热门文章 end
底部版权
- 关于量子位
- 加入我们
- 寻求报道
- 商务合作
<a href="/?page_id=183"target="_blank"><i class="weixin_icon"></i></a>
追踪人工智能新趋势,报道科技行业新突破
<p>量子位 QbitAI 版权所有©北京极客伙伴科技有限公司 京ICP备17005886号-1</p>
量子位 QbitAI 版权所有©北京极客伙伴科技有限公司 京ICP备17005886号-1