T
traeai
Sign in

人物

什么是 KellerJordan

Muon优化器官方版本的提出者,其版本引入了max(1,⋅)截断操作。

为什么现在值得关注?

最近变化

2026-06-03 · KellerJordan版Muon的max(1,⋅)源于din>dout且输入各向同性时的RMS近似推导。

KellerJordan 被反复提及时,通常意味着它正在影响产品路线、开发者工作流或 AI 产业判断。这个页面把分散材料合并成一个可持续更新的观察入口。

📰 KellerJordan 最新动态

已收录 1 篇与「KellerJordan」相关的 AI 资讯和分析。

科学空间 图标

The official Muon optimizer adds a max(1,⋅) truncation to stabilize updates during early training when inputs are isotropic, but the MuP scaling factor aligns better with steepest descent theory in later stages as features become anisotropic. Practitioners should prefer the MuP version or use a dynamic decay schedule transitioning from KellerJordan to MuP.

入选理由:KellerJordan版Muon的max(1,⋅)源于din>dout且输入各向同性时的RMS近似推导。

FeaturedArticle#Muon Optimizer#MuP#Deep Learning Optimization#Feature Scaling#LLM Training中文

与「KellerJordan」经常一起出现的 AI 术语。

💡 想追踪「KellerJordan」的长期趋势?去 实体雷达 · KellerJordan 查看详细分析和跨材料问答。

AI may generate inaccurate information. Please verify important content.