SGLang is hitting 180 tok/s/GPU on DeepSeek-V4 decode with ~1M context on Blackwell. Good to see f...

- SGLang 在 DeepSeek-V4 解码任务上实现高性能,达 180 tok/s/GPU。
- 该成果基于 Blackwell 硬件与 LMSYS 优化,提升模型稀疏注意力性能。
- LMSYS 同时发布适用于 V4 的 Miles RL 训练管道,支持 Day 0 优化。
结构提纲
按章节快速跳转。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- SGLang & DeepSeek-V4 性能突破
- 性能表现
- 180 tok/s/GPU
- 优化因素
- Blackwell硬件
- LMSYS组织
- 附加成果
- Miles RL训练管道
金句 / Highlights
值得收藏与分享的关键句。
SGLang 在 DeepSeek-V4 解码上达到 180 tok/s/GPU,上下文约 1M。
LMSYS 针对 Blackwell 的优化提升了模型的混合稀疏注意力利用率。
伴随 V4 发布,LMSYS 提供了 Miles 中的 RL 训练管道,支持 Day 0 优化。
Good to see fast progress in open source DeepSeek-V4 inference on new hardware.
This comes from Blackwell-specific optimizations by @lmsysorg that better use the model’s hybrid sparse" / X
Don’t miss what’s happening
People on X are the first to know.
Post
Conversation

SGLang is hitting 180 tok/s/GPU on DeepSeek-V4 decode with ~1M context on Blackwell. Good to see fast progress in open source DeepSeek-V4 inference on new hardware. This comes from Blackwell-specific optimizations by
that better use the model’s hybrid sparse attention.
Quote
LMSYS Org
@lmsysorg
Apr 24
DeepSeek V4 by @deepseek_ai just dropped! SGLang is ready on Day 0 with a full stack of optimizations from architectures to low-level kernels. We also deliver a verified RL training pipeline in Miles (by @radixark) for V4 at launch: !Image 2: 1️⃣ Native "ShadowRadix" Design: DeepSeek V4's

Sign up now to get your own personalized timeline!
Trending now
What’s happening
Sports · Trending
Risacher
Only on X · Trending
#911onABC
Crime drama · Trending
#LawAndOrderSVU
Trending in United States
Fennell
问问这篇内容
回答仅基于本篇材料Skill 包
领域模板,一键产出结构化笔记投融资雷达包
把一条融资 / 创投新闻整理成投资人视角的雷达卡:交易要点、判断、竞争格局、风险、尽调清单。
- · 交易要点(公司 / 轮次 / 金额 / 投资人 / 估值,材料未明示则写 “未披露”)
- · 投资 thesis(这家公司为什么值得关注)
- · 竞争格局与替代方案