返回首页
量子位

Mythos架构被22岁小伙“逆推”开源了!MoE和注意力借鉴DeepSeek

8.5Score
Mythos架构被22岁小伙“逆推”开源了!MoE和注意力借鉴DeepSeek
AI 深度提炼
  • RDT架构通过循环+专家路由,用更少参数实现同等效果,突破传统堆叠层数模式。
  • 推理全程在潜在空间完成,不输出中间token,相比CoT更高效且内化思考过程。
  • 实验证明循环Transformer具备系统泛化和深度外推能力,解锁知识组合新瓶颈。
#Transformer#MoE#大模型#推理优化#开源项目
打开原文

Mythos架构被22岁小伙“逆推”开源了!MoE和注意力借鉴DeepSeek – 量子位

[](https://www.qbitai.com/)

[](javascript:void(0))

扫码关注量子位

Image 1

[](https://weibo.com/qbitai?is_all=1)

< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

Mythos架构被22岁小伙“逆推”开源了!MoE和注意力借鉴DeepSeek

!Image 2_[梦晨](https://www.qbitai.com/author/mengchen "由 梦晨 发布")_ 2026-04-20 15:59:51 来源:量子位

整合了公开研究和目前对Claude Mythos架构的主流推测

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

听说Mythos太危险被封印?有人反手就给他**“重建”并开源**了。

OpenMythos,整合了公开研究和目前对Claude Mythos架构的主流推测。

Image 3

OpenMythos实现了一个带有MoE路由机制的循环深度Transformer(Recurrent-Depth Transformer ,RDT),通过跨专家的权重共享和条件计算来实现迭代深度。

已有研究证实,这种架构仅用1半参数,就能获得与传统模型同等的效果。

不堆参数,堆循环

把这些碎片拼在一起的人叫**Kye Gomez**,22岁,Swarms智能体框架创始人。

Image 4

他设计的RDT架构有三个核心点:

  • 让同一组权重最多反复跑16遍
  • 每次走不同的专家路径
  • 推理全程在潜在空间完成。

三者合力,让一个问题“想更多遍”比堆参数更高效。

过去两年,AI行业的标准打法是堆叠上百层不同的Transformer层,每层学到不同的东西,参数量直接爆炸。

RDT不用上百层,只用几层,最多反复循环跑16遍,每一遍都基于前一轮的结果继续计算。

Image 5

同一个东西跑16遍,那不是浪费算力吗?

RDT的回答是不会重复,因为**每次循环激活的是不同的“专家”**。

循环块内部用了混合专家层,MoE路由器在每次循环中激活不同的专家子集。

MoE的设计上借鉴了DeepSeekMoE:大量细粒度路由专家,加少量始终在线的共享专家。

Gomez把这套设计总结成一句话:

MoE提供领域知识的广度,循环提供推理的深度。

广度和深度都有了,还需要一套稳定性机制保证循环不会跑飞。

来自UCSD和Together AI的新论文Parcae: Scaling Laws For Stable Looped Language Models提出**LTI稳定循环注入**让每轮不发散。

实验中用770M参数的RDT追平了1.3B参数的标准Transformer。

参数量少了近一半,效果一样。

Image 6

最后一块拼图是连续潜在空间推理。16轮推理全部在hidden state向量中完成,不生成任何中间token。直到最后一轮循环结束,才输出答案。

这和Chain-of-Thought完全不同。CoT是“想一步,写一步,再想一步,再写一步”,中间token全部暴露给人类阅读。

RDT是“想完16遍才说一句话”,推理过程完全内化。

Image 7

Kye还引用了俄亥俄州立大学的一篇论文,对循环Transformer架构做了两个关键实验。

Image 8

**第一个:系统性泛化。**

训练时从没见过的知识组合,推理时循环Transformer照样能答对,标准Transformer直接失败。

这证明循环不是重复计算,是真正的”更深层思考”。

**第二个:深度外推。**

训练时只教了20跳推理链,测试时直接给30跳。

循环Transformer的应对方式就是在推理时多加几轮循环,标准Transformer直接崩溃。

这些结果说明当前大模型在预训练中已经记住了大量事实,瓶颈在于知识组合。

它们无法将已知事实串联起来回答新颖问题。循环似乎免费解锁了这种组合能力。

如果这些结论成立,Scaling的主流将从”训练更大的模型”转向“让现有模型在推理时多想几遍”。

有了这些研究结果,Anthropic的Mythos是否真的用了这套架构,似乎已经不重要了。

对循环Transformer的猜想已经吸引了来自学术界的大量目光。

更多理论和实验验证正在路上。

GitHub:

https://github.com/kyegomez/OpenMythos#the-central-hypothesis

参考链接:

[1]

https://x.com/KyeGomezB/status/2045660378844024994

[2]

https://arxiv.org/abs/2604.07822

[3]

https://arxiv.org/abs/2604.12946

_版权所有,未经授权不得以任何形式转载及使用,违者必究。_

Claude

![Image 9[梦晨](https://www.qbitai.com/author/mengchen "由 梦晨 发布")](http://www.qbitai.com/2026/04/403708.html#)

  • [Claude实名认证引众怒!强制验证是为了更精准封号](https://www.qbitai.com/2026/04/401655.html "Claude实名认证引众怒!强制验证是为了更精准封号")_2026-04-16_
  • [浏览器原地变龙虾!Chrome上线Skills,技能一键复用帮你干活](https://www.qbitai.com/2026/04/401389.html "浏览器原地变龙虾!Chrome上线Skills,技能一键复用帮你干活")_2026-04-15_
  • [Claude强到不敢发的Mythos,被质疑用了字节Seed技术](https://www.qbitai.com/2026/04/400500.html "Claude强到不敢发的Mythos,被质疑用了字节Seed技术")_2026-04-13_
  • [价值归零!Django创始人警告:30岁程序员受AI冲击最大](https://www.qbitai.com/2026/04/395995.html "价值归零!Django创始人警告:30岁程序员受AI冲击最大")_2026-04-04_

扫码分享至朋友圈

[](https://service.weibo.com/share/share.php?url=https://www.qbitai.com/2026/04/403708.html&title=Mythos%E6%9E%B6%E6%9E%84%E8%A2%AB22%E5%B2%81%E5%B0%8F%E4%BC%99%E2%80%9C%E9%80%86%E6%8E%A8%E2%80%9D%E5%BC%80%E6%BA%90%E4%BA%86%EF%BC%81MoE%E5%92%8C%E6%B3%A8%E6%84%8F%E5%8A%9B%E5%80%9F%E9%89%B4DeepSeek&appkey=4017757111&searchPic=true&ralateUid=6105753431 "分享到新浪微博")[](http://www.qbitai.com/2026/04/403708.html)

相关阅读

![Image 10](https://www.qbitai.com/2025/02/253973.html)

#### Claude 4被曝发布在即!被DeepSeek逼得都把大招拿出来了

通用+推理二合一,手动调节思考时长

衡宇2025-02-14

Claude大模型推理模型

![Image 11](https://www.qbitai.com/2026/04/400306.html)

#### 「Claude Code之父」其实是野路子来的……

一生都在试图逃离原生公司(bushi)

鹭羽2026-04-12

ClaudeClaude Code

![Image 12](https://www.qbitai.com/2024/11/218003.html)

#### Claude三巨头回应一切!Opus3.5仍可能发布,5小时视频10万人围观

"打造顶级AI团队,人才密度比人才数量重要”

梦晨2024-11-12

AnthropicClaude

![Image 13](https://www.qbitai.com/2025/05/289491.html)

#### Claude团队打开大模型「脑回路」,开源LLM思维可视化工具来了

网 友:归因图可能成为LLM研究的显微镜

西风2025-05-31

ClaudeLLM思维可视化工具

![Image 14](https://www.qbitai.com/2023/02/41792.html)

#### 谷歌急投20亿押注ChatGPT「最强竞品」,GPT-3核心成员出走打造,多方出击抗衡微软

公司聊天机器人已在内测中

衡宇2023-02-04

ChatGPTClaude谷歌

![Image 15](https://www.qbitai.com/2025/06/299688.html)

#### 大模型参与推理崩溃论战!从「思维错觉」到「错觉的错觉」再到「错觉的错觉的错觉」

闻乐2025-06-20

AI大模型Claude苹果

热门文章

![Image 16 #### 别养龙虾了,硅谷Agent新潮流是「爱马仕」 2026-04-13](https://www.qbitai.com/2026/04/400522.html)

![Image 17 #### π0.7发布,VLA押出了机器人的GPT-3时刻 2026-04-17](https://www.qbitai.com/2026/04/402189.html)

![Image 18 #### 今年最火的AI产品,不止龙虾|榜单申报中 2026-04-13](https://www.qbitai.com/2026/04/401011.html)

![Image 19 #### PPIO上线PPHermes:云端沙箱一键部署Hermes Agent 2026-04-16](https://www.qbitai.com/2026/04/402085.html)

![Image 20 #### 72天,从0到千万小时产能,这个具身「新锐派」凭什么接管数据赛道? 2026-04-16](https://www.qbitai.com/2026/04/401741.html)

扫码关注量子位 ![Image 21](javascript:void(0))[](https://weibo.com/qbitai?is_all=1)[](https://www.zhihu.com/org/liang-zi-wei-48/activities)[](https://www.toutiao.com/c/user/53624121633/#mid=1556041376883713)

[](http://www.qbitai.com/2026/04/403708.html#)追踪人工智能新趋势,报道科技行业新突破

量子位 QbitAI 版权所有©北京极客伙伴科技有限公司 京ICP备17005886号-1