T
traeai
登录
返回首页
Hugging Face Blog

Nemotron 3.5内容安全:全球企业AI的可定制多模态安全

8.5Score
Nemotron 3.5内容安全:全球企业AI的可定制多模态安全

TL;DR · AI 摘要

Nemotron 3.5实现多模态内容安全统一评估,支持12种语言并可定制企业策略。

核心要点

  • Nemotron 3.5通过整合文本/图像/响应三重输入实现多模态安全评估
  • 继承Gemma 3的零样本泛化能力,覆盖约140种语言
  • 支持企业自定义安全策略的推理执行与审计

结构提纲

按章节快速跳转。

  1. Nemotron 3.5整合文本/图像/响应三重输入进行统一安全评估

  2. 支持12种语言显式训练并继承Gemma 3的140种语言泛化能力

  3. 实现安全策略的推理执行与审计功能

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • Nemotron 3.5内容安全
    • 多模态评估
      • 文本/图像/响应联合分析
    • 语言支持
      • 12种显式语言
      • 140种零样本语言
    • 企业定制
      • 策略执行
      • 审计追踪

金句 / Highlights

值得收藏与分享的关键句。

  • Nemotron 3.5通过整合用户提示、图像和助手响应进行统一安全评估,解决多模态交互中的政策违规检测问题。

    第1段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 支持12种语言显式训练(英语、法语、西班牙语等)并继承Gemma 3的约140种语言零样本泛化能力。

    第2段

    ⬇︎ 下载 PNG𝕏 分享到 X
  • 企业可定制安全策略的推理执行与审计功能,满足不同行业(医疗、金融等)的差异化风险控制需求。

    第3段

    ⬇︎ 下载 PNG𝕏 分享到 X
#Nemotron 3.5#内容安全#多模态#企业AI
打开原文
  • [4. 思维推理痕迹(THINK 模式)](https://huggingface.co/blog/nvidia/nemotron-3-5-content-safety#4-reasoning-traces-think-mode "4. 思维推理痕迹(THINK 模式)")

过去两年里,NVIDIA 的内容安全性堆栈从专注于英文文本分类器发展成为一系列专门化的模型——每个模型都扩展了对新模态、语言和推断模式的覆盖范围。Nemotron 3 内容安全性于2026年3月发布,首次将多模态和多语言能力整合到一个4B参数模型中。今天,我们发布了Nemotron 3.5 内容安全性,它完成了这一进程:一个统一了多模态输入、多语言覆盖、自定义企业策略执行和可审计推理的单一推断调用。

本文将介绍Nemotron 3.5 的新功能,每种新能力的设计决策以及如何将其集成到生产安全管道中。

Nemotron 3.5 内容安全性中的新功能

1. 统一多模态评估

Nemotron 3 引入了图像理解;而 Nemotron 3.5 则进一步深化了多模态整合。模型接受一个 用户提示、可选的图片和可选的助手回复 作为一个单一上下文窗口,并对组合输入生成一致的安全判断。同时评估这三个元素——而不是分别评分——弥补了多模态安全场景中的一个重要缺口:政策违规行为,这些违规行为仅在文本与图像之间的交互或请求与回复之间出现时才会显现,现在可以在一次通过中被捕捉到。

2. 全球语言覆盖

Nemotron 3.5 维持了其前身的12种语言显式训练覆盖率——英语、法语、西班牙语、德语、中文、日语、韩语、阿拉伯语、印地语、俄语、葡萄牙语和意大利语——同时从基模态 Gemma 3 中继承了对约140种语言的强大零样本泛化能力。这意味着在训练数据稀少的市场(例如东南亚语言、斯堪的纳维亚语言、资源较少的非洲语言)中的部署可以受益于基于基模型的多语言迁移,而无需单独微调。

3. 自定义策略执行

这是与Nemotron 3相比,3.5版本中最显著的架构改进。生产部署很少能在单一通用安全分类下运行。医疗保健平台的风险配置文件不同于金融服务业聊天机器人、开发者工具IDE或儿童教育应用程序。Nemotron 3.5接受自定义策略规范作为输入的一部分。在生成裁决时,模型会考虑该策略而不是完全依赖内置的分类体系。这扩展了Nemotron内容安全推理4B中首次引入的工作,适用于全多模态、多语言环境。

4. 推理踪迹(THINK 模式)

Nemotron 3.5 中的每个安全裁决都可以通过可选的 think 模式 随附一个可审计的推理踪迹。启用此模式时,模型会在最终输出 safe / unsafe 标签之前逐步展示其推理过程,并且可以附加违反的类别。

code
<think>
用户提示询问如何在没有处方的情况下获取受控物质。
助手回复提供了具体的采购步骤并引用了一个在线市场。
该互动违反了刑事策划/自白和受控物质类别。
图片(一家药店的外部)提供了地理位置信息,但并未改变裁决结果。
</think>

用户安全:unsafe
响应安全:unsafe
安全类别:刑事策划/自白、受控物质

当延迟是主要限制因素时,THINK 模式可以被禁用,以返回与Nemotron 3相同低延迟的二元裁决。

5. 安全数据集

在Nemotron 3.5中,我们发布了我们的安全数据集。这是一个重要的里程碑,因为大多数开源(OSS)安全模型通常不提供训练或评估集。这个问题在多模态空间中更为严重,其中图像或视频等实体往往源自带有严格许可条款的资源。Nemotron 3.5内容安全数据集是多模态、多语言的,并且包括用于训练模型的安全推理踪迹。这些推理踪迹通过两步生成以使其简洁,类似于Nemotron内容安全推理4B模型。

  • * *

模型架构

Nemotron 3.5内容安全是基于 Google Gemma 3 4B IT(4B参数),提供128K上下文窗口,强大的视觉语言推理能力和广泛的多语言覆盖范围。NVIDIA 使用LoRA适配器对这个基础模型进行微调,安装了目标化的安全性分类行为,同时保持模型足够紧凑以实现实时部署在8GB及以上显存的GPU上。

推理接口支持三种输出模式:

模式1 — 低延迟二元裁决:

code
用户安全:safe
响应安全:unsafe

模式2 — 带有类别的二元裁决:

code
用户安全:safe
响应安全:unsafe
安全类别:暴力、刑事策划/自白

模式3 — THINK 模式(推理 + 裁决):

code
<think>
[逐步推理踪迹]
</think>

用户安全:unsafe
响应安全:unsafe
安全类别:[categories]

The safety taxonomy follows the **Aegis 2.0** framework: 13 core categories aligned with the MLCommons safety taxonomy, plus 10 fine-grained subcategories. This alignment allows direct comparison with other open and closed guard systems benchmarked on Aegis-taxonomy datasets.

* * *

## [](https://huggingface.co/blog/nvidia/nemotron-3-5-content-safety#reasoning) 推理

推理是内容安全分类的超级加速器,因为它提供了生产AI系统所需的关键背景、定制和问责制,特别是在企业级和受监管环境中。

**启用自定义和上下文相关的策略执行**

推理允许内容安全模型在推断时动态解释并执行自然语言定义的自定义领域特定策略。这是因为生产部署很少能在一个单一的安全分类框架下运行。金融服务聊天机器人与儿童教育应用的风险状况不同,后者对粗俗用语的容忍度较低。这种能力支持以下功能:

*   **类别抑制**:禁用无关的类别,例如当DevOps工具处理短语“终止进程”时,防止触发“暴力”类别。
*   **自定义类别的注入**:根据组织的监管或产品政策定义专有的风险类别。

**提供可审计和文档化的理由**

推理跟踪展示了模型在最终得出安全或不安全的裁决之前逐步逻辑。这种文档化的原因说明具有多种用途:

*   **合规性和审核日志记录**:受监管行业通常需要对内容审查决策进行文档化的理由。
*   **人工复审**:审查员可以审计做出裁决的原因,以识别模型系统性错误。
*   **策略迭代**:这些跟踪揭示了模型如何解释边缘案例,使团队能够逐步细化和完善自定义策略语言。

**延迟**

虽然推理可能会引入延迟,但Nemotron模型通过将推理链压缩为简洁的摘要来限制输出标记并提高效率,从而解决了这一问题。这在两步过程中完成,类似于前一个模型[Nemotron-Content-Safety-Reasoning-4B](https://huggingface.co/nvidia/Nemotron-Content-Safety-Reasoning-4B)所做的操作。第一步中,我们使用更大的、更强大的模型如Qwen 397B根据提供的提示、图像和响应生成基于链式思考的推理跟踪。我们也提供了样本的真实标签以避免任何可能进入推理跟踪中的误分类。在第二步中,我们通过使用另一个大型模型如Qwen 80B使这些推理跟踪更加简洁。我们特别指示该模型重新表述第一步中的原始跟踪(最多不超过三句话)。根据我们的实验结果,大多数生成的推理跟踪都在三句话以内。

高效的推理跟踪优化使得低延迟自定义策略执行成为可能。此外,推理跟踪提供了可用于训练专门审查员模型的重要训练信号。开发人员可以选择双模式操作,在通用任务中禁用推理以实现最小延迟或在复杂策略中启用它。

## [](https://huggingface.co/blog/nvidia/nemotron-3-5-content-safety#training-data) 训练数据

Nemotron 3.5 的训练数据是 Nemotron 3 所使用的多模态、多语言混合数据的进一步发展,增加了针对推理和自定义策略能力的数据。我们使用了以下数据源:

*   **多语言文本安全数据**来自 [Nemotron 安全守护者数据集 v3](https://huggingface.co/datasets/nvidia/Nemotron-Safety-Guard-Dataset-v3),这些数据来源于文化内涵丰富的子集,并且在各类别的安全性和非安全性划分中保持了比例均衡。
*   **由人类标注的多模态数据**,NVIDIA 收集并翻译成 12 种语言。关键的是,**99% 的训练图像都是真实照片**——而不是合成生成的。这直接解决了多模态安全基准领域中的一个已知弱点:现有数据集如 VLGuard 和 MM-SafetyBench 高度依赖于由 SDXL 合成生成的图像,这些图像缺乏生产内容的文化质感和对抗复杂性。尽管由于版权限制,并非所有这些真实图像都能发布,我们仍然能够从维基媒体和合成生成中发布一部分图像。
*   **安全多模态数据**来自 [Nemotron VLM 数据集 v2](https://huggingface.co/datasets/nvidia/Nemotron-VLM-Dataset-v2),涵盖了扫描文档、图表、论文和图形,并附带相关查询,确保模型不会过度标记良性专业内容。
*   **推理轨迹**源自更大教师模型 Qwen 397B 的思维链输出,然后通过 Qwen 80B 缩短而来,用于教导模型如何进行推理。
*   **话题跟随数据**来自 [CantTalkAboutThis](https://huggingface.co/datasets/nvidia/CantTalkAboutThis-Topic-Control-Dataset) 数据集,包含一系列企业部署场景(医疗保健、金融、银行、教育等)中的策略规范/裁决对。
*   **合成数据**约占总训练量的 10%,主要用于多样化逃逸模式、生成罕见的政策违规示例以及产生多模态对抗案例。

---

## [](https://huggingface.co/blog/nvidia/nemotron-3-5-content-safety#benchmarking) 测试

Nemotron 3.5 内容安全性在多语言、多模态和自定义策略安全基准测试中进行了评估,包括 VLGuard、MM-SafetyBench、PolyGuard、RTP-LX、Aya Redteaming、XSafety、MultiJail、Aegis、Dynaguardrail 和 CoSA。这些评估反映了企业安全性核心生产挑战:在全球语言、文本和图像输入以及领域特定策略之间保持一致的护栏,而不增加显著的延迟。

Nemotron 3 在多模态有害内容测试中的平均准确率为 84%,并且其延迟大约仅为 LlamaGuard-4-12B 的一半。Nemotron 3.5 维持了紧凑的 4B 效率,同时增加了自定义策略支持和推理轨迹。

在多语言和多模态安全基准测试中,Nemotron 3.5 在有害内容分类准确性方面表现出色,并且保持了紧凑的模型体积。这很重要,因为许多安全模型仍然以英语优先、文本单一或过于昂贵而无法频繁运行于生产流水线中。Nemotron 3.5 是为了结合多语言覆盖范围、多模态分类、自定义策略支持和低延迟部署而设计的一款模型。

[![](https://cdn-uploads.huggingface.co/production/uploads/644c4b804ef896a09019a5b4/uomUY8i9DOEdH9YfOCCB0.png)](https://cdn-uploads.huggingface.co/production/uploads/644c4b804ef896a09019a5b4/uomUY8i9DOEdH9YfOCCB0.png)

_图 1. Nemotron 3.5 内容安全性在多语言和多媒体安全基准测试中提供了强大的有害内容分类准确性,平均值约为 85%。_

多语言结果突显了全球企业 AI 中多语言安全性的重要性。在 Multilingual Aegis 上,Nemotron 3.5 在 12 种语言上平均实现了 96.5% 的有害内容分类准确性。在 RTP-LX 上,它平均为 88.8%,两者的综合平均值为 92.7%。这种一致性有助于团队在全球范围内统一安全策略,应用于面向客户、员工和合作伙伴的工作流中,而无需依赖仅限英语的审核或单独的区域安全模型。

[![](https://cdn-uploads.huggingface.co/production/uploads/644c4b804ef896a09019a5b4/6vntaUhBuotVodz-9BkaX.png)](https://cdn-uploads.huggingface.co/production/uploads/644c4b804ef896a09019a5b4/6vntaUhBuotVodz-9BkaX.png)

_图 2. Nemotron 3.5 内容安全性在 Multilingual Aegis 文化 + 调整(提示分类)(有害-f1) 上实现了 12 种语言的平均 97% 的有害内容分类准确性。_

[![](https://cdn-uploads.huggingface.co/production/uploads/644c4b804ef896a09019a5b4/w8u_dXJ_iRg3GDRzq5I3-.png)](https://cdn-uploads.huggingface.co/production/uploads/644c4b804ef896a09019a5b4/w8u_dXJ_iRg3GDRzq5I3-.png)

_图 3. Nemotron 3.5 内容安全性在 RTP-LX(提示分类)(有害-f1) 上实现了 12 种语言的平均 89% 的有害内容分类准确性。_

单纯依靠准确率不足以作为生产防护栏。安全模型还必须足够高效,能够在内容被处理、返回或下游路由之前运行。Nemotron 3.5 内容安全性紧凑的 4B 设计有助于减少重复安全检查的成本和延迟,使多语言和多媒体防护栏在实际 AI 应用中变得可行。

## [](https://huggingface.co/blog/nvidia/nemotron-3-5-content-safety#latency) 延迟

默认模式(无 THINK)下,Nemotron 3.5 的延迟配置文件没有变化。THINK 模式会增加与跟踪长度成比例的推理时间,但这种开销是可以预测的,并且可以从同步审核循环中独立预算——例如,在审核管道中异步运行 THINK 模式的评估,而默认模式处理实时决策。

[![](https://cdn-uploads.huggingface.co/production/uploads/644c4b804ef896a09019a5b4/5drKmlTOcLxVobY03RJ7_.png)](https://cdn-uploads.huggingface.co/production/uploads/644c4b804ef896a09019a5b4/5drKmlTOcLxVobY03RJ7_.png)

_图 4. Nemotron 3.5 内容安全性在多模态基准测试中实现了比另一种替代的多模态安全模型低 3 倍的端到端延迟。_

与另一款推理安全模型相比,当启用推理时,我们的模型生成的令牌最多减少了 50%,使其在成本和延迟方面更加高效。

* * *

## [](https://huggingface.co/blog/nvidia/nemotron-3-5-content-safety#addressing-the-benchmark-gap) 解决基准差距问题

多模态安全研究中的一个反复出现的主题是现有评估基础设施的缺口。Nemotron 3.5 的开发遇到了与更广泛文献中记录相同的缺口:

*   **文本覆盖范围**:最常引用的安全基准(WildGuard、XSTest、HarmBench)均为纯文本形式。从这些基于文本的基准结果无法推断出多模态性能。
*   **合成图像质量**:现有的大多数多模态基准使用AI生成的图像(通常是SDXL),而不是真实的照片,低估了实际生产内容的难度。
*   **真实图像许可**:版权图片禁止在AI数据集中重新分发,这在研究与生产条件之间造成了结构性缺口。

NVIDIA的多模态训练数据——包含真实图像和文化上细腻的多语言提示——旨在为模型训练填补一些这些空白。评估基准差距仍然是更广泛的安全研究社区面临的一个开放问题。

## [](https://huggingface.co/blog/nvidia/nemotron-3-5-content-safety#getting-started) 开始使用

Nemotron 3.5内容安全可在[Hugging Face](https://huggingface.co/nvidia/Nemotron-3.5-Content-Safety) 下以NVIDIA开源模型许可协议提供,适用于研究和商业用途。同时提供了训练[数据集](https://huggingface.co/datasets/nvidia/Nemotron-3.5-Content-Safety-Dataset)。它支持transformers、vLLM和SGLang,并可在build.nvidia.com上作为生产级[NVIDIA NIM](https://nvcr.io/nim/nvidia/nemotron-3.5-content-safety:2.0.5-variant)提供给需要预打包且GPU优化的推理微服务团队。

开发者还可以通过包括[Baseten](https://www.baseten.co/library/nemotron-3-5-content-safety/)、[Eigen AI](https://www.eigenai.com/blog/2026-06-04-eigenai-delivers-day-0-inference-nvidia-nemotron-3-x-family-ultra-asr-content-safety)、[DeepInfra](https://deepinfra.com/nvidia/Nemotron-Content-Safety-3.5)、[OpenRouter](https://openrouter.ai/nvidia/nemotron-3.5-content-safety:free)和[Vultr](https://blogs.vultr.com/nemotron-3-5-content-safety/)在内的推理平台访问该模型。

对于自定义策略工作流,NVIDIA提供了与Claude和Codex兼容的[生成自定义策略技能](https://github.com/NVIDIA-NeMo/Nemotron/tree/main/skills/nemotron-policy-generator),以及展示如何使用该模型的[食谱](https://github.com/NVIDIA-NeMo/Nemotron/tree/main/usage-cookbook/Nemotron-3.5-Content-Safety)。自定义策略和推理跟踪有助于团队根据特定领域的规则调整安全行为,同时保持决策可审计性。

AI 可能会生成不准确的信息,请核实重要内容