T
traeai
Sign in

概念

MuP

别名:Maximal Update Parametrization

最大更新参数化方法,用于指导大模型超参数迁移及优化器缩放因子设计。

已跟踪 1 条高相关材料

TraeAI 观察

最近变化

2026-06-03 · KellerJordan版Muon的max(1,⋅)源于din>dout且输入各向同性时的RMS近似推导。

为什么值得关注

MuP 被反复提及时,通常意味着它正在影响产品路线、开发者工作流或 AI 产业判断。这个页面把分散材料合并成一个可持续更新的观察入口。

Muon优化器MuP大模型训练深度学习优化特征缩放

相关材料

已收录 1 条与 MuP 相关的内容,按评分排序。

科学空间 图标

The official Muon optimizer adds a max(1,⋅) truncation to stabilize updates during early training when inputs are isotropic, but the MuP scaling factor aligns better with steepest descent theory in later stages as features become anisotropic. Practitioners should prefer the MuP version or use a dynamic decay schedule transitioning from KellerJordan to MuP.

入选理由:KellerJordan版Muon的max(1,⋅)源于din>dout且输入各向同性时的RMS近似推导。

FeaturedArticle#Muon Optimizer#MuP#Deep Learning Optimization#Feature Scaling#LLM Training中文

跨材料问答 · MuP

回答基于:MuP 相关 1 条材料
    0 / 500

    AI may generate inaccurate information. Please verify important content.