Mythos架构被22岁小伙“逆推”开源了!MoE和注意力借鉴DeepSeek

- RDT架构通过循环+专家路由,用更少参数实现同等效果,突破传统堆叠层数模式。
- 推理全程在潜在空间完成,不输出中间token,相比CoT更高效且内化思考过程。
- 实验证明循环Transformer具备系统泛化和深度外推能力,解锁知识组合新瓶颈。
Mythos架构被22岁小伙“逆推”开源了!MoE和注意力借鉴DeepSeek – 量子位
[](https://www.qbitai.com/)
[](javascript:void(0))
扫码关注量子位

[](https://weibo.com/qbitai?is_all=1)
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">
Mythos架构被22岁小伙“逆推”开源了!MoE和注意力借鉴DeepSeek
!Image 2_[梦晨](https://www.qbitai.com/author/mengchen "由 梦晨 发布")_ 2026-04-20 15:59:51 来源:量子位
整合了公开研究和目前对Claude Mythos架构的主流推测
梦晨 发自 凹非寺
量子位 | 公众号 QbitAI
听说Mythos太危险被封印?有人反手就给他**“重建”并开源**了。
OpenMythos,整合了公开研究和目前对Claude Mythos架构的主流推测。

OpenMythos实现了一个带有MoE路由机制的循环深度Transformer(Recurrent-Depth Transformer ,RDT),通过跨专家的权重共享和条件计算来实现迭代深度。
已有研究证实,这种架构仅用1半参数,就能获得与传统模型同等的效果。
不堆参数,堆循环
把这些碎片拼在一起的人叫**Kye Gomez**,22岁,Swarms智能体框架创始人。

他设计的RDT架构有三个核心点:
- 让同一组权重最多反复跑16遍
- 每次走不同的专家路径
- 推理全程在潜在空间完成。
三者合力,让一个问题“想更多遍”比堆参数更高效。
过去两年,AI行业的标准打法是堆叠上百层不同的Transformer层,每层学到不同的东西,参数量直接爆炸。
RDT不用上百层,只用几层,最多反复循环跑16遍,每一遍都基于前一轮的结果继续计算。

同一个东西跑16遍,那不是浪费算力吗?
RDT的回答是不会重复,因为**每次循环激活的是不同的“专家”**。
循环块内部用了混合专家层,MoE路由器在每次循环中激活不同的专家子集。
MoE的设计上借鉴了DeepSeekMoE:大量细粒度路由专家,加少量始终在线的共享专家。
Gomez把这套设计总结成一句话:
MoE提供领域知识的广度,循环提供推理的深度。
广度和深度都有了,还需要一套稳定性机制保证循环不会跑飞。
来自UCSD和Together AI的新论文Parcae: Scaling Laws For Stable Looped Language Models提出**LTI稳定循环注入**让每轮不发散。
实验中用770M参数的RDT追平了1.3B参数的标准Transformer。
参数量少了近一半,效果一样。

最后一块拼图是连续潜在空间推理。16轮推理全部在hidden state向量中完成,不生成任何中间token。直到最后一轮循环结束,才输出答案。
这和Chain-of-Thought完全不同。CoT是“想一步,写一步,再想一步,再写一步”,中间token全部暴露给人类阅读。
RDT是“想完16遍才说一句话”,推理过程完全内化。

Kye还引用了俄亥俄州立大学的一篇论文,对循环Transformer架构做了两个关键实验。

**第一个:系统性泛化。**
训练时从没见过的知识组合,推理时循环Transformer照样能答对,标准Transformer直接失败。
这证明循环不是重复计算,是真正的”更深层思考”。
**第二个:深度外推。**
训练时只教了20跳推理链,测试时直接给30跳。
循环Transformer的应对方式就是在推理时多加几轮循环,标准Transformer直接崩溃。
这些结果说明当前大模型在预训练中已经记住了大量事实,瓶颈在于知识组合。
它们无法将已知事实串联起来回答新颖问题。循环似乎免费解锁了这种组合能力。
如果这些结论成立,Scaling的主流将从”训练更大的模型”转向“让现有模型在推理时多想几遍”。
有了这些研究结果,Anthropic的Mythos是否真的用了这套架构,似乎已经不重要了。
对循环Transformer的猜想已经吸引了来自学术界的大量目光。
更多理论和实验验证正在路上。
GitHub:
https://github.com/kyegomez/OpenMythos#the-central-hypothesis
参考链接:
[1]
https://x.com/KyeGomezB/status/2045660378844024994
[2]
https://arxiv.org/abs/2604.07822
[3]
https://arxiv.org/abs/2604.12946
_版权所有,未经授权不得以任何形式转载及使用,违者必究。_
](http://www.qbitai.com/2026/04/403708.html#)
- [Claude实名认证引众怒!强制验证是为了更精准封号](https://www.qbitai.com/2026/04/401655.html "Claude实名认证引众怒!强制验证是为了更精准封号")_2026-04-16_
- [浏览器原地变龙虾!Chrome上线Skills,技能一键复用帮你干活](https://www.qbitai.com/2026/04/401389.html "浏览器原地变龙虾!Chrome上线Skills,技能一键复用帮你干活")_2026-04-15_
- [Claude强到不敢发的Mythos,被质疑用了字节Seed技术](https://www.qbitai.com/2026/04/400500.html "Claude强到不敢发的Mythos,被质疑用了字节Seed技术")_2026-04-13_
- [价值归零!Django创始人警告:30岁程序员受AI冲击最大](https://www.qbitai.com/2026/04/395995.html "价值归零!Django创始人警告:30岁程序员受AI冲击最大")_2026-04-04_
扫码分享至朋友圈
[](https://service.weibo.com/share/share.php?url=https://www.qbitai.com/2026/04/403708.html&title=Mythos%E6%9E%B6%E6%9E%84%E8%A2%AB22%E5%B2%81%E5%B0%8F%E4%BC%99%E2%80%9C%E9%80%86%E6%8E%A8%E2%80%9D%E5%BC%80%E6%BA%90%E4%BA%86%EF%BC%81MoE%E5%92%8C%E6%B3%A8%E6%84%8F%E5%8A%9B%E5%80%9F%E9%89%B4DeepSeek&appkey=4017757111&searchPic=true&ralateUid=6105753431 "分享到新浪微博")[](http://www.qbitai.com/2026/04/403708.html)
相关阅读

#### Claude 4被曝发布在即!被DeepSeek逼得都把大招拿出来了
通用+推理二合一,手动调节思考时长
衡宇2025-02-14

#### 「Claude Code之父」其实是野路子来的……
一生都在试图逃离原生公司(bushi)
鹭羽2026-04-12

#### Claude三巨头回应一切!Opus3.5仍可能发布,5小时视频10万人围观
"打造顶级AI团队,人才密度比人才数量重要”
梦晨2024-11-12

#### Claude团队打开大模型「脑回路」,开源LLM思维可视化工具来了
网 友:归因图可能成为LLM研究的显微镜
西风2025-05-31

#### 谷歌急投20亿押注ChatGPT「最强竞品」,GPT-3核心成员出走打造,多方出击抗衡微软
公司聊天机器人已在内测中
衡宇2023-02-04

#### 大模型参与推理崩溃论战!从「思维错觉」到「错觉的错觉」再到「错觉的错觉的错觉」
闻乐2025-06-20
热门文章





扫码关注量子位 )[](https://weibo.com/qbitai?is_all=1)[](https://www.zhihu.com/org/liang-zi-wei-48/activities)[](https://www.toutiao.com/c/user/53624121633/#mid=1556041376883713)
[](http://www.qbitai.com/2026/04/403708.html#)追踪人工智能新趋势,报道科技行业新突破
量子位 QbitAI 版权所有©北京极客伙伴科技有限公司 京ICP备17005886号-1