Perplexity(@perplexity_ai)2026年5月12日

基准测试显示差距。NVLS 全归约延迟从 H200 的 586.1 微秒降至 GB200 的 313.3 微秒...

8.5内容质量

基准测试显示差距。NVLS 全归约延迟从 H200 的 586.1 微秒降至 GB200 的 313.3 微秒...

TL;DR · AI 摘要

NVLS 全归约延迟显著改善，从 H200 的 586.1 微秒降至 GB200 的 313.3 微秒，MoE 预填充和解码吞吐量也有显著提升。

核心要点

NVLS 全归约延迟从 H200 的 586.1 微秒降至 GB200 的 313.3 微秒。
MoE 预填充组合时间从 730.1 微秒减少到 438.5 微秒（EP=4）。
GB200 在高令牌速度下维持更高的解码吞吐量。

结构提纲

按章节快速跳转。

§引言
基准测试显示 NVLS 全归约延迟和 MoE 预填充性能有显著改进。
·NVLS 全归约延迟
延迟从 H200 的 586.1 微秒降至 GB200 的 313.3 微秒。
·MoE 预填充性能
组合时间从 730.1 微秒减少到 438.5 微秒（EP=4）。
·解码吞吐量
GB200 在高令牌速度下维持更高的吞吐量。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

Benchmarks Show the Gap
- NVLS All-Reduce Latency
  - 586.1µs (H200) to 313.3µs (GB200)
- MoE Prefill Performance
  - 730.1µs to 438.5µs at EP=4
- Decode Throughput
  - Higher throughput at high token speeds

金句 / Highlights

值得收藏与分享的关键句。

NVLS 全归约延迟从 H200 的 586.1 微秒降至 GB200 的 313.3 微秒。
— 第 1 段
⬇︎ 下载 PNG 𝕏 分享到 X
在 MoE 预填充时（EP=4），组合时间从 730.1 微秒减少到 438.5 微秒。
— 第 1 段
⬇︎ 下载 PNG 𝕏 分享到 X
对于解码，GB200 在高令牌速度下维持更高的吞吐量。
— 第 1 段
⬇︎ 下载 PNG 𝕏 分享到 X

#NVLS#H200#GB200#MoE#性能

Image 1: 方形个人资料图片

基准测试显示了差距。NVLS 全规约延迟从 H200 的 586.1µs 降低到 GB200 的 313.3µs。在 MoE 预填充（EP=4）时，组合时间从 730.1µs 降至 438.5µs。对于解码，GB200 在高令牌速度下保持更高的吞吐量。