Training Kimi K2 and Qwen3 30B-scale models efficiently requires more than standard data-parallel tricks.

NVIDIA AI(@NVIDIAAI)

NVIDIA AI(@NVIDIAAI)2026年5月4日

Training Kimi K2 and Qwen3 30B-scale models efficiently requires more than standard data-parallel tricks.

7.2内容质量

TL;DR · AI 摘要

NVIDIA Megatron Core新增对Muon、MOP、REKLS等高阶优化器的端到端支持，突破传统数据并行限制，显著提升Kimi K2与Qwen3等300亿参数模型在GB300/NVL72系统上的训练效率。

核心要点

传统数据并行已不足以高效训练30B+大模型，需引入高阶优化器。
NVIDIA Megatron Core已集成Muon、MOP、REKLS等前沿优化算法，支持端到端训练。
该技术可显著加速Kimi K2、Qwen3等大模型在NVIDIA GB300/NVL72硬件上的收敛速度。

结构提纲

按章节快速跳转。

§训练大模型的瓶颈
传统数据并行方法无法满足300亿参数模型的高效训练需求。
§NVIDIA Megatron Core的新支持
新增对Muon、MOP、REKLS等高阶优化器的端到端集成。
§硬件与模型协同优化
针对GB300和NVL72系统优化，提升Kimi K2与Qwen3的训练效率。
·技术落地场景
适用于千亿参数级大模型训练，推动国产大模型研发提速。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

大模型高效训练优化
- 核心挑战
  - 数据并行局限性
  - 30B+参数收敛慢
- 解决方案
  - Muon优化器
  - MOP / REKLS优化器
  - Megatron Core集成
- 落地场景
  - Kimi K2训练
  - Qwen3训练
  - GB300/NVL72系统

金句 / Highlights

值得收藏与分享的关键句。

Training Kimi K2 and Qwen3 30B-scale models efficiently requires more than standard data-parallel tricks.
— 正文第一句
⬇︎ 下载 PNG 𝕏 分享到 X
NVIDIA Megatron Core now provides end-to-end support for emerging higher-order optimizers like Muon, alongside research optimizers such as MOP and REKLS.
— 正文第二句
⬇︎ 下载 PNG 𝕏 分享到 X
Push training efficiency on GB300 GPUs and NVL72 systems.
— 正文末尾
⬇︎ 下载 PNG 𝕏 分享到 X

#NVIDIA Megatron Core#Muon#Qwen3#Kimi K2#LLM训练优化

打开原文

NVIDIA AI on X： “高效训练 Kimi K2 和 Qwen3 30B 级模型需要的不仅仅是标准的数据并行技巧。NVIDIA Megatron Core 现已全面支持新兴的高阶优化器（如 Muon），以及 MOP 和 REKLS 等研究型优化器，以提升在 GB300 GPU 和 NVL72 系统上的训练效率。” / X

不要错过正在发生的事

X 上的用户最先知晓。

登录

注册

帖子

查看新帖子

对话

NVIDIA AI ![Image 3](http://x.com/NVIDIAAI)

@NVIDIAAI

高效训练 Kimi K2 和 Qwen3 30B 级模型需要的不仅仅是标准的数据并行技巧。NVIDIA Megatron Core 现已全面支持新兴的高阶优化器（如 Muon），以及 MOP 和 REKLS 等研究型优化器，以提升在 GB300 GPU 和 NVL72 系统上的训练效率。完整解析 Image 4: 👇