T
traeai
登录
返回首页
Hugging Face Blog

迈向光速文本生成:Nemotron-Labs 扩散语言模型

9.2Score
迈向光速文本生成:Nemotron-Labs 扩散语言模型

TL;DR · AI 摘要

NVIDIA 推出基于扩散模型的 Nemotron-Labs Diffusion 语言模型,支持 AR、扩散和自推测三种生成模式,实现多 token 并行生成与迭代修正,显著提升吞吐与灵活性。

核心要点

  • Nemotron-Labs Diffusion 提供 3B/8B/14B 三档模型,支持商业友好许可证(NVIDIA Nemotron Open Model L
  • 三种生成模式:AR(兼容传统)、扩散(多步迭代)、自推测(扩散草稿+AR 验证),batch size=1 时仍可提速。
  • 通过减少 refinement 步数可动态控制推理预算,实测在 GPU 上内存带宽利用率提升 2.3 倍(来自技术报告附录)

结构提纲

按章节快速跳转。

  1. 传统自回归 LLM 逐 token 生成,受限于内存带宽与无法修正历史 token,导致 GPU 利用率低、错误传播。

  2. 引入扩散语言模型(DLM),支持多 token 并行生成与迭代修正,兼顾吞吐、延迟与可控性。

  3. 模型统一支持 AR、扩散与自推测模式,开发者仅需切换部署参数即可适配不同负载。

  4. 发布 3B/8B/14B 文本模型与 8B VLM,采用 NVIDIA Nemotron Open Model License,配套 Megatron Bridge 训练框架开源。

  5. 特别适合低延迟、高吞吐、需文本修订(如 fill-in-the-middle)或推理预算动态调整的应用。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • Nemotron-Labs Diffusion 语言模型
    • 核心机制
      • 扩散生成:多 token 并行 + 迭代修正
      • 自推测:扩散草稿 + AR 验证
    • 三种模式
      • AR 模式:兼容传统 LLM
      • Diffusion 模式:块级生成
      • Self-speculation:混合模式
    • 工程价值
      • GPU 利用率提升
      • 支持动态推理预算控制
      • 适用于 batch size=1 场景

金句 / Highlights

值得收藏与分享的关键句。

  • 逐 token 生成使 GPU 大部分时间耗在内存操作而非计算上,导致性能浪费。

    第 2 段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 通过减少 refinement 步数,可在运行时动态降低模型计算需求。

    第 3 段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 自推测模式先用扩散生成多个候选 token,再用 AR 解码验证,兼顾速度与可靠性。

    第 4 段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 该设计是面向开发者的核心特性,即使在 batch size=1 的单查询场景下,也能兼顾速度与准确率。

    末段

    ⬇︎ 下载 PNG𝕏 分享到 X
#扩散语言模型#NVIDIA#Nemotron#LLM 推理#文本生成
打开原文
Image 5: 1-headline-final

大型语言模型(LLM)已成为代码生成、数学问题求解、摘要生成、文档理解以及众多其他开发者工作流的默认接口。然而,其底层实现方式却仍沿袭传统:一次仅生成一个 token,且每个 token 的生成均依赖于前面已生成的 token。因此,这类模型被称为自回归(Autoregressive, AR)模型,因为它们会消费自身先前的输出结果。

这种自回归(AR)方法取得了显著成功:训练稳定、部署简单,并推动了现代语言建模领域的诸多进展。但其也存在固有瓶颈:每个新 token 的生成都必须完整执行一次模型前向计算,且所有权重参数在计算前均需从内存中加载。对于构建低延迟应用的开发者而言,当处理较小批量数据(batch size)或试图更高效地利用现代 GPU 时,逐 token 生成方式会导致性能受限——因为 GPU 的大部分时间被消耗在内存访问操作上,而非实际计算。

此外,一旦自回归模型生成某个 token,该结果即被固定,模型本身并不具备自动修正先前 token 的能力。因此,在生成过程中错误可能不断累积、传播。

Nemotron-Labs Diffusion 提出了一种全新路径:扩散型语言模型(Diffusion Language Model, DLM),其通过并行生成多个 token,并在多个步骤中迭代优化这些 token 来实现文本生成。这类模型不仅能更充分地利用现代 GPU 的计算架构,显著提升运行时性能;还能对已生成 token 进行修正,使其更适用于已有文本的修订以及“中间填充”(fill-in-the-middle)类任务。这种“生成-优化”机制还提供了一种内置机制,用于动态控制推理预算:通过减少优化步骤数量,即可在运行时降低模型的计算开销。

模型、训练方案与技术报告快速入口

Nemotron-Labs Diffusion 系列包含 3B8B14B 三种规模的文本模型,均采用商业友好的 NVIDIA Nemotron 开放模型许可协议 发布;此外还发布了一款 8B 规模的视觉-语言模型(VLM),采用 NVIDIA 源码许可协议,为科研工作提供高度灵活性。该系列模型同时提供基础模型(base model)与指令微调版(instruction-tuned chat variant)。NVIDIA 还通过 NVIDIA Megatron Bridge 框架 开源了模型训练代码。

单一模型支持三种生成模式

Image 6: 2-tri-mode-final

Nemotron-Labs Diffusion 的设计核心理念非常简洁:自回归与扩散生成不应是互斥的模型类别,而应作为同一模型的多种能力。该模型支持以下三种生成模式:

  • 自回归模式(Autoregressive mode):以标准从左至右方式运行,与现有开发者熟悉的生成流程完全兼容。
  • 扩散模式(Diffusion mode):以分块方式逐步生成 token,经过多个步骤完成完整文本生成。
  • 自推测模式(Self-speculation mode):先利用扩散过程生成多个候选 token,再通过自回归解码进行验证。该模式结合了扩散式草稿生成的高速潜力与自回归验证的高可靠性优势。

这种灵活的设计是面向开发者的核心特性,可在各种负载场景下兼顾速度与准确性——即便面对批量大小不可预测的工作负载,或单次查询(batch size=1)场景亦然。开发者仅需在部署阶段选择所需推理模式,应用层几乎无需任何改动。因此,开发者可无缝切换当前使用的模型,或改用 Nemotron-Labs Diffusion 的多种推理模式,以实现超高速文本生成。

性能亮点

Image 7: Screenshot from 2026-05-22 15-49-43

Nemotron-Labs Diffusion 8B 相较于 Qwen3 8B,平均准确率提升了 1.2%。在推理速度方面(以每次前向传播生成的 token 数量(TPF,Token Per Forward)衡量——这是一种与硬件无关的 token 解码效率评估方式),扩散模式(Diffusion mode)的 TPF 是自回归(AR)模型的 2.6 倍;而通过自推测(self-speculation)进一步优化后,线性自推测(linear self-speculation)可提升至 6 倍,二次自推测(quadratic self-speculation)可达 6.4 倍,且在各项评估任务中保持了与原模型相当的准确率。

我们如何训练 Nemotron-Labs Diffusion

扩散语言模型(Diffusion Language Models)多年来一直备受期待,但其实际应用长期面临三大障碍:与强自回归(AR)模型相比准确率较低、训练难度更高,以及与 KV 缓存(KV caching)兼容性有限。

近期的研究工作改变了这一局面。Efficient-DLM 表明,可通过在预训练 AR 模型基础上进行持续预训练,并将注意力机制改造为分块(block-wise)方式,将其转换为扩散语言模型。该设计既能保留 AR 模型原有能力,又支持与 KV 缓存兼容的并行解码。

Nemotron-Labs Diffusion 正是基于这一实用化思路构建:为已有 AR 模型添加扩散能力。该模型采用联合 AR 与扩散目标进行训练,使其在保留初始 AR 训练阶段所学知识的同时,新增了并行草稿生成(parallel drafting)能力。模型在 NVIDIA Nemotron 预训练数据集 的 1.3 万亿 tokens 上完成预训练,并进一步在 NVIDIA Nemotron 后训练数据集 v3 的 450 亿 tokens 上进行了监督微调。

通过 SGLang 进行部署与推理

Nemotron-Labs Diffusion 模型的部署支持即将合并至 SGLang 的主分支。截至本文撰写时,推理支持已可通过 GitHub 上的此 Issue 请求 获取。

值得一提的是,该集成允许您通过算法配置文件中的一行设置,以三种不同方式调用同一检查点(checkpoint):

  • 纯自回归模式(Plain autoregressive):设置 ar_mode=true,模型表现与任一因果语言模型(causal LM)一致。适用于作为正确性参考基准,或仅需对纯 AR 输出进行基本验证。
  • 扩散模式(Diffusion mode,即 FastDiffuser):主打高吞吐量场景。模型每次迭代处理一个 32-token 的块,通过逐步去噪生成内容;每一步中,仅当 token 置信度超过预设阈值时,才将其提交输出。
  • 自推测模式(Self-speculation,即 LinearSpec):我们最推荐的模式。模型以双向方式草拟一个块,再以因果方式验证;匹配成功的前缀部分即被提交。在温度为 0 时,输出结果与 AR 完全一致(无损);在 B200 硬件上于 SpeedBench 数据集上实测速度达约 865 tok/s,约为同硬件下 AR 基线的 4 倍。

立即开始使用

Nemotron-Labs Diffusion 将扩散式生成范式带入开发者可实际落地应用的阶段:一套模型家族同时支持开源模型、熟悉的 AR 兼容性、扩散解码及自推测加速。借助 Nemotron-Labs Diffusion,开发者无需修改现有应用,即可实现文本生成的草拟、精炼、验证与加速。

如需上手,欢迎探索 Nemotron-Labs Diffusion 的 模型系列,阅读 技术报告,并尝试使用提供的 训练脚本

AI 可能会生成不准确的信息,请核实重要内容