量子位2026年4月20日

Mythos架构被22岁小伙“逆推”开源了！MoE和注意力借鉴DeepSeek

8.5Score

用这条生成生成视频方案

AI 深度提炼

RDT架构通过循环+专家路由，用更少参数实现同等效果，突破传统堆叠层数模式。
推理全程在潜在空间完成，不输出中间token，相比CoT更高效且内化思考过程。
实验证明循环Transformer具备系统泛化和深度外推能力，解锁知识组合新瓶颈。

#Transformer#MoE#大模型#推理优化#开源项目

打开原文

Mythos架构被22岁小伙“逆推”开源了！MoE和注意力借鉴DeepSeek – 量子位

[](https://www.qbitai.com/)

[](javascript:void(0))

扫码关注量子位

[](https://weibo.com/qbitai?is_all=1)

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

Mythos架构被22岁小伙“逆推”开源了！MoE和注意力借鉴DeepSeek

!Image 2_[梦晨](https://www.qbitai.com/author/mengchen "由梦晨发布")_ 2026-04-20 15:59:51 来源：量子位

整合了公开研究和目前对Claude Mythos架构的主流推测

梦晨发自凹非寺

量子位 | 公众号 QbitAI

听说Mythos太危险被封印？有人反手就给他**“重建”并开源**了。

OpenMythos，整合了公开研究和目前对Claude Mythos架构的主流推测。

OpenMythos实现了一个带有MoE路由机制的循环深度Transformer（Recurrent-Depth Transformer ，RDT），通过跨专家的权重共享和条件计算来实现迭代深度。

已有研究证实，这种架构仅用1半参数，就能获得与传统模型同等的效果。

不堆参数，堆循环

把这些碎片拼在一起的人叫**Kye Gomez**，22岁，Swarms智能体框架创始人。

他设计的RDT架构有三个核心点：

让同一组权重最多反复跑16遍
每次走不同的专家路径
推理全程在潜在空间完成。

三者合力，让一个问题“想更多遍”比堆参数更高效。

过去两年，AI行业的标准打法是堆叠上百层不同的Transformer层，每层学到不同的东西，参数量直接爆炸。

RDT不用上百层，只用几层，最多反复循环跑16遍，每一遍都基于前一轮的结果继续计算。

同一个东西跑16遍，那不是浪费算力吗？

RDT的回答是不会重复，因为**每次循环激活的是不同的“专家”**。

循环块内部用了混合专家层，MoE路由器在每次循环中激活不同的专家子集。

MoE的设计上借鉴了DeepSeekMoE：大量细粒度路由专家，加少量始终在线的共享专家。

Gomez把这套设计总结成一句话：

MoE提供领域知识的广度，循环提供推理的深度。

广度和深度都有了，还需要一套稳定性机制保证循环不会跑飞。

来自UCSD和Together AI的新论文Parcae: Scaling Laws For Stable Looped Language Models提出**LTI稳定循环注入**让每轮不发散。

实验中用770M参数的RDT追平了1.3B参数的标准Transformer。

参数量少了近一半，效果一样。

最后一块拼图是连续潜在空间推理。16轮推理全部在hidden state向量中完成，不生成任何中间token。直到最后一轮循环结束，才输出答案。

这和Chain-of-Thought完全不同。CoT是“想一步，写一步，再想一步，再写一步”，中间token全部暴露给人类阅读。

RDT是“想完16遍才说一句话”，推理过程完全内化。

Kye还引用了俄亥俄州立大学的一篇论文，对循环Transformer架构做了两个关键实验。

**第一个：系统性泛化。**

训练时从没见过的知识组合，推理时循环Transformer照样能答对，标准Transformer直接失败。

这证明循环不是重复计算，是真正的”更深层思考”。

**第二个：深度外推。**

训练时只教了20跳推理链，测试时直接给30跳。

循环Transformer的应对方式就是在推理时多加几轮循环，标准Transformer直接崩溃。

这些结果说明当前大模型在预训练中已经记住了大量事实，瓶颈在于知识组合。

它们无法将已知事实串联起来回答新颖问题。循环似乎免费解锁了这种组合能力。

如果这些结论成立，Scaling的主流将从”训练更大的模型”转向“让现有模型在推理时多想几遍”。

有了这些研究结果，Anthropic的Mythos是否真的用了这套架构，似乎已经不重要了。

对循环Transformer的猜想已经吸引了来自学术界的大量目光。

更多理论和实验验证正在路上。

GitHub：

https://github.com/kyegomez/OpenMythos#the-central-hypothesis

参考链接：

[1]

https://x.com/KyeGomezB/status/2045660378844024994

[2]

https://arxiv.org/abs/2604.07822

[3]

https://arxiv.org/abs/2604.12946

Claude

![Image 9[梦晨](https://www.qbitai.com/author/mengchen "由梦晨发布")](http://www.qbitai.com/2026/04/403708.html#)

[Claude实名认证引众怒！强制验证是为了更精准封号](https://www.qbitai.com/2026/04/401655.html "Claude实名认证引众怒！强制验证是为了更精准封号")_2026-04-16_
[浏览器原地变龙虾！Chrome上线Skills，技能一键复用帮你干活](https://www.qbitai.com/2026/04/401389.html "浏览器原地变龙虾！Chrome上线Skills，技能一键复用帮你干活")_2026-04-15_
[Claude强到不敢发的Mythos，被质疑用了字节Seed技术](https://www.qbitai.com/2026/04/400500.html "Claude强到不敢发的Mythos，被质疑用了字节Seed技术")_2026-04-13_
[价值归零！Django创始人警告：30岁程序员受AI冲击最大](https://www.qbitai.com/2026/04/395995.html "价值归零！Django创始人警告：30岁程序员受AI冲击最大")_2026-04-04_

扫码分享至朋友圈

[](https://service.weibo.com/share/share.php?url=https://www.qbitai.com/2026/04/403708.html&title=Mythos%E6%9E%B6%E6%9E%84%E8%A2%AB22%E5%B2%81%E5%B0%8F%E4%BC%99%E2%80%9C%E9%80%86%E6%8E%A8%E2%80%9D%E5%BC%80%E6%BA%90%E4%BA%86%EF%BC%81MoE%E5%92%8C%E6%B3%A8%E6%84%8F%E5%8A%9B%E5%80%9F%E9%89%B4DeepSeek&appkey=4017757111&searchPic=true&ralateUid=6105753431 "分享到新浪微博")[](http://www.qbitai.com/2026/04/403708.html)

Mythos架构被22岁小伙“逆推”开源了！MoE和注意力借鉴DeepSeek

Mythos架构被22岁小伙“逆推”开源了！MoE和注意力借鉴DeepSeek – 量子位

Mythos架构被22岁小伙“逆推”开源了！MoE和注意力借鉴DeepSeek

不堆参数，堆循环

相关阅读

热门文章