SGLang 最近有什么新动态？

traeai 已收录 11 篇与 SGLang 相关的内容。最新一篇是「[AINews] Reve 2 and Ideogram 4: Layouts in Imagegen」，由 Latent Space 发布。

产品

SGLang

xAI开发的高效推理框架

已跟踪 11 条高相关材料

TraeAI 观察

如果只读 3 篇

[AINews] Reve 2 and Ideogram 4: Layouts in Imagegen

Latent Space · 8.7 分

图像生成布局能力被两大模型同时突破，Ideogram 4 登顶公开图像模型榜单；与此同时，微软发布 MAI-Thinking-1，97% 解决 AIME 2025 且无合成数据、无蒸馏，公开训练细节与 MoE 阶梯，Frontier Tuning 使企业工作流模型效率提升 10...

第三方服务商也因此能把成本做到 DeepSeek 官方 API 的五分之一。 SGLang + Prefill-Decode 解耦 + 专家并行 + AMD MI300——这就是整套技术栈。 htt...

AI Will(@FinanceYF5) · 8.5 分

通过SGLang与AMD MI300等技术组合，第三方服务商将推理成本降至DeepSeek官方API的五分之一。

前伯克利博士、现 xAI SGLang 负责人，用 23 分钟讲清楚他们如何在 10 万张 GPU 上部署 Grok 拆分 Prefill 和 Decode → 将 MoE 专家分片到不同 GPU ...

AI Will(@FinanceYF5) · 8.5 分

xAI团队通过拆分Prefill和Decode、MoE专家分片及通信计算重叠，实现Grok在10万张GPU上的高效部署。

Reve 2 与 Ideogram 4：图像生成布局突破

Latent Space6月4日1547 字 (约 7 分钟)

图像生成布局能力被 Reve 2 与 Ideogram 4 同步突破，后者登顶公开图像模型榜单；微软发布 MAI-Thinking-1，AIME 2025 97% 且无合成数据、无蒸馏，公开训练细节与 MoE 阶梯；开源侧 Gemma 4 12B 等多款模型升级，强化本地优先部署。

入选理由：Ideogram 4.0 登顶 Arena 开放图像模型榜单，图像布局能力显著提升。

精选文章#图像生成#布局#MAI-Thinking-1#Frontier Tuning#Gemma 4 12B英文

前伯克利博士、现 xAI SGLang 负责人，用 23 分钟讲清楚他们如何在 10 万张 GPU 上部署 Grok 拆分 Prefill 和 Decode → 将 MoE 专家分片到不同 GPU ...

AI Will(@FinanceYF5)7月7日191 字 (约 1 分钟)

xAI团队通过拆分Prefill和Decode、MoE专家分片及通信计算重叠，实现Grok在10万张GPU上的高效部署。

入选理由：拆分Prefill和Decode是实现大规模GPU部署的关键步骤

精选推文#Grok#MoE#GPU部署#xAI#SGLang中英混合

第三方服务商也因此能把成本做到 DeepSeek 官方 API 的五分之一。 SGLang + Prefill-Decode 解耦 + 专家并行 + AMD MI300——这就是整套技术栈。 htt...

AI Will(@FinanceYF5)7月7日164 字 (约 1 分钟)

通过SGLang与AMD MI300等技术组合，第三方服务商将推理成本降至DeepSeek官方API的五分之一。

入选理由：使用AMD MI300显卡可降低50%以上推理成本

精选推文#AI推理优化#成本控制#AMD MI300#模型架构中英混合

Turn Research Papers into Insights with DeepSeek-V4 and SGLang

NVIDIA Developer6月26日556 字 (约 3 分钟)

DeepSeek-V4 与 SGLang 结合，能高效处理大量研究论文，提取关键信息并生成研究地图。

入选理由：DeepSeek-V4-Flash 支持 2B 上下文窗口，适合处理大规模研究论文。

精选视频#AI#研究论文#SGLang#DeepSeek-V4#NVIDIA英文

1、Most RL stacks are built for one modality. UniRL applies a single post-training loop — generate → ...

Hunyuan(@TXhunyuan)6月10日257 字 (约 2 分钟)

UniRL 是一个统一的强化学习框架，支持多种模态和模型，通过单一训练循环实现跨模型家族的训练。

入选理由：UniRL 使用单一训练循环（generate → score → advantage → update → sync）支持多种模态和模型。

精选推文#强化学习#UniRL#Tencent#AI框架英文

Benchmarking inference at scale: coding agents

大规模推理基准测试：编码代理

Together AI Blog5月21日1358 字 (约 6 分钟)

Together推理引擎在编码代理工作负载中比其他开源引擎多提供31%的TPS，并在饱和状态下保持2倍的TTFT优势。性能提升来自全栈优化。

入选理由：ThunderMLA、自定义内核重写和端到端优化使Together引擎比其他OSS引擎多31%的TPS

精选文章#Together AI#推理引擎#编码代理#性能优化#TTFT英文

国产GPU组了个开源局，把SGLang等核心开发者都摇来了！

量子位5月15日3400 字 (约 14 分钟)

国产GPU厂商摩尔线程通过开源活动吸引多个大模型推理框架核心开发者。

入选理由：SGLang在12个H100节点上实现52.3k输入token/s/node性能

精选文章#GPU#开源生态#大模型推理中文

163: 详解DeepSeekV4：Infra巨鲸、百万上下文走进现实、极致效率优化

晚点聊 LateTalk5月1日2079 字 (约 9 分钟)

DeepSeekV4发布，通过组合创新和工程优化，在R1的“测试时扩展”范式下，实现百万上下文从理论到实用的飞跃，对Agent和多步复杂任务具有重要意义。

入选理由：DeepSeek V4沿用现有范式，未带来范式变化，但通过一系列技术创新显著提升了长上下文处理能力。

精选播客#DeepSeek#大模型#注意力机制#优化器#稀疏注意力中文

SGLang is hitting 180 tok/s/GPU on DeepSeek-V4 decode with ~1M context on Blackwell. Good to see f...

NVIDIA AI(@NVIDIAAI)5月1日212 字 (约 1 分钟)

NVIDIA AI 报告称，SGLang 在 Blackwell 硬件上使用 DeepSeek-V4 模型解码达到 180 tok/s/GPU 的速度，约 1M 上下文，得益于 LMSYS 组织针对 Blackwell 的特定优化，提高了混合稀疏注意力的利用效率。

入选理由：SGLang 在 DeepSeek-V4 解码任务上实现高性能，达 180 tok/s/GPU。

精选推文#NVIDIA#DeepSeek-V4#SGLang#Blackwell#LMSYS中文

> Ecosystem: Compatible with llama.cpp, MLX, @LMStudio, vLLM, @ollama, @UnslothAI, and SGLang.
&g...

Google AI Developers：Gemma 4 生态兼容与下载

Google AI Developers(@googleaidevs)6月4日78 字 (约 1 分钟)

Google 宣布其模型权重与主流开源生态兼容，可在 Hugging Face 和 Kaggle 直接下载，降低部署门槛。

入选理由：Gemma 4 权重与 llama.cpp、vLLM、Ollama 等生态兼容，便于本地部署与推理。

精选推文#Gemma#开源生态#模型部署#Hugging Face#Kaggle英文

Looking for an early hire in SF for helping with model optimization: spec decoding, GPU kernels, poo...

Suhail(@Suhail)7月3日118 字 (约 1 分钟)

该推文为旧金山寻找模型优化工程师的招聘信息，涉及spec decoding、GPU kernels等技术。

入选理由：招聘聚焦模型优化领域，包含spec decoding和GPU kernels技术

精选推文#模型优化#GPU#招聘#AI英文

跨材料问答 · SGLang

回答基于：SGLang 相关 11 条材料