我们在 NVIDIA GB200 NVL72 Blackwell 机架上发布了 Qwen3 235B 模型的部署研究
Perplexity 发布了关于如何在 NVIDIA GB200 NVL72 Blackwell 机架上部署 Qwen3 235B 模型的研究,GB200 在大规模 MoE 模型的高吞吐量推理方面优于 Hopper。
入选理由:Qwen3 235B 模型在 NVIDIA GB200 上实现了高效的高吞吐量推理。
产品
别名:nvidia_gb200
NVIDIA 生产的高性能计算平台,适用于大规模模型的训练和推理。
已跟踪 3 条高相关材料
最近变化
2026-05-12 · NVIDIA 平台通过预填充/解码分离、Blackwell 原生量化、自定义内核和机架级 NVLink 提高了大规模模型推理的性能。
为什么值得关注
GB200 被反复提及时,通常意味着它正在影响产品路线、开发者工作流或 AI 产业判断。这个页面把分散材料合并成一个可持续更新的观察入口。
This NVIDIA remains the strongest platform for large-model inference at scale. Prefill/decode disagg...
Perplexity(@perplexity_ai) · 8.5 分
NVIDIA 平台通过多种优化技术,成为大规模模型推理的最佳平台,显著降低服务成本并提高性能。
The benchmarks show the gap. NVLS all-reduce latency drops from 586.1µs on H200 to 313.3µs on GB200....
Perplexity(@perplexity_ai) · 8.5 分
NVLS all-reduce latency significantly improves from 586.1µs on H200 to 313.3µs on GB200, with notable performance gains in MoE prefill and...
We published new research on how we serve post-trained Qwen3 235B models on NVIDIA GB200 NVL72 Black...
Perplexity(@perplexity_ai) · 8.5 分
Perplexity 发布了关于如何在 NVIDIA GB200 NVL72 Blackwell 机架上部署 Qwen3 235B 模型的研究,GB200 在大规模 MoE 模型的高吞吐量推理方面优于 Hopper。
已收录 3 条与 GB200 相关的内容,按评分排序。
Perplexity 发布了关于如何在 NVIDIA GB200 NVL72 Blackwell 机架上部署 Qwen3 235B 模型的研究,GB200 在大规模 MoE 模型的高吞吐量推理方面优于 Hopper。
入选理由:Qwen3 235B 模型在 NVIDIA GB200 上实现了高效的高吞吐量推理。
NVLS 全归约延迟显著改善,从 H200 的 586.1 微秒降至 GB200 的 313.3 微秒,MoE 预填充和解码吞吐量也有显著提升。
入选理由:NVLS all-reduce latency drops from 586.1µs on H200 to 313.3µs on GB200.
NVIDIA 平台通过多种优化技术,成为大规模模型推理的最佳平台,显著降低服务成本并提高性能。
入选理由:NVIDIA 平台通过预填充/解码分离、Blackwell 原生量化、自定义内核和机架级 NVLink 提高了大规模模型推理的性能。