T
traeai
Sign in

概念

什么是 MuP

也叫:Maximal Update Parametrization

最大更新参数化方法,用于指导大模型超参数迁移及优化器缩放因子设计。

为什么现在值得关注?

最近变化

2026-06-03 · KellerJordan版Muon的max(1,⋅)源于din>dout且输入各向同性时的RMS近似推导。

MuP 被反复提及时,通常意味着它正在影响产品路线、开发者工作流或 AI 产业判断。这个页面把分散材料合并成一个可持续更新的观察入口。

📰 MuP 最新动态

已收录 1 篇与「MuP」相关的 AI 资讯和分析。

科学空间 图标

The official Muon optimizer adds a max(1,⋅) truncation to stabilize updates during early training when inputs are isotropic, but the MuP scaling factor aligns better with steepest descent theory in later stages as features become anisotropic. Practitioners should prefer the MuP version or use a dynamic decay schedule transitioning from KellerJordan to MuP.

入选理由:KellerJordan版Muon的max(1,⋅)源于din>dout且输入各向同性时的RMS近似推导。

FeaturedArticle#Muon Optimizer#MuP#Deep Learning Optimization#Feature Scaling#LLM Training中文

与「MuP」经常一起出现的 AI 术语。

💡 想追踪「MuP」的长期趋势?去 实体雷达 · MuP 查看详细分析和跨材料问答。

AI may generate inaccurate information. Please verify important content.