Perplexity(@perplexity_ai)
基准测试显示差距。NVLS 全归约延迟从 H200 的 586.1 微秒降至 GB200 的 313.3 微秒...
8.5Score

TL;DR · AI 摘要
NVLS 全归约延迟显著改善,从 H200 的 586.1 微秒降至 GB200 的 313.3 微秒,MoE 预填充和解码吞吐量也有显著提升。
核心要点
- NVLS 全归约延迟从 H200 的 586.1 微秒降至 GB200 的 313.3 微秒。
- MoE 预填充组合时间从 730.1 微秒减少到 438.5 微秒(EP=4)。
- GB200 在高令牌速度下维持更高的解码吞吐量。
结构提纲
按章节快速跳转。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- Benchmarks Show the Gap
- NVLS All-Reduce Latency
- 586.1µs (H200) to 313.3µs (GB200)
- MoE Prefill Performance
- 730.1µs to 438.5µs at EP=4
- Decode Throughput
- Higher throughput at high token speeds
金句 / Highlights
值得收藏与分享的关键句。
NVLS 全归约延迟从 H200 的 586.1 微秒降至 GB200 的 313.3 微秒。
在 MoE 预填充时(EP=4),组合时间从 730.1 微秒减少到 438.5 微秒。
对于解码,GB200 在高令牌速度下维持更高的吞吐量。
#NVLS#H200#GB200#MoE#性能
打开原文