T
traeai
登录
返回首页
Perplexity(@perplexity_ai)

基准测试显示差距。NVLS 全归约延迟从 H200 的 586.1 微秒降至 GB200 的 313.3 微秒...

8.5Score
基准测试显示差距。NVLS 全归约延迟从 H200 的 586.1 微秒降至 GB200 的 313.3 微秒...

TL;DR · AI 摘要

NVLS 全归约延迟显著改善,从 H200 的 586.1 微秒降至 GB200 的 313.3 微秒,MoE 预填充和解码吞吐量也有显著提升。

核心要点

  • NVLS 全归约延迟从 H200 的 586.1 微秒降至 GB200 的 313.3 微秒。
  • MoE 预填充组合时间从 730.1 微秒减少到 438.5 微秒(EP=4)。
  • GB200 在高令牌速度下维持更高的解码吞吐量。

结构提纲

按章节快速跳转。

  1. 基准测试显示 NVLS 全归约延迟和 MoE 预填充性能有显著改进。

  2. 延迟从 H200 的 586.1 微秒降至 GB200 的 313.3 微秒。

  3. 组合时间从 730.1 微秒减少到 438.5 微秒(EP=4)。

  4. GB200 在高令牌速度下维持更高的吞吐量。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • Benchmarks Show the Gap
    • NVLS All-Reduce Latency
      • 586.1µs (H200) to 313.3µs (GB200)
    • MoE Prefill Performance
      • 730.1µs to 438.5µs at EP=4
    • Decode Throughput
      • Higher throughput at high token speeds

金句 / Highlights

值得收藏与分享的关键句。

#NVLS#H200#GB200#MoE#性能
打开原文
Image 1: 方形个人资料图片

基准测试显示了差距。NVLS 全规约延迟从 H200 的 586.1µs 降低到 GB200 的 313.3µs。在 MoE 预填充(EP=4)时,组合时间从 730.1µs 降至 438.5µs。对于解码,GB200 在高令牌速度下保持更高的吞吐量。

AI 可能会生成不准确的信息,请核实重要内容

基准测试显示差距。NVLS 全归约延迟从 H200 的 586.1 微秒降至 GB200 的 313.3 微秒... | Perplexity(@perplexity_ai) | traeai