NVIDIA AI(@NVIDIAAI)2026年5月7日

Perplexity runs on NVIDIA.

7.2内容质量

Perplexity runs on NVIDIA.

TL;DR · AI 摘要

Perplexity利用NVIDIA的CUTLASS Python栈优化其推理模型，显著提升大规模语言模型的性能。

核心要点

Perplexity开发了ROSE推理引擎，支持从嵌入到万亿参数LLM的模型服务。
通过CuTeDSL集成，Perplexity能更快构建专用GPU内核，提高模型效率。
使用CUTLASS Python栈可显著优化推理过程，适用于多种规模的AI模型。

结构提纲

按章节快速跳转。

§Perplexity与NVIDIA合作
Perplexity采用NVIDIA技术优化其AI模型推理性能。
·ROSE推理引擎介绍
ROSE支持从嵌入到万亿参数LLM的模型服务，提升整体性能。
›CuTeDSL的作用
CuTeDSL加速GPU内核构建，增强模型推理速度。
·CUTLASS Python栈的应用
CUTLASS优化推理过程，适用于多种规模的AI模型。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

Perplexity与NVIDIA合作
- ROSE推理引擎
  - 支持多种模型
  - 提升性能
- CuTeDSL
  - 加速GPU内核构建
  - 增强推理速度
- CUTLASS Python栈
  - 优化推理过程
  - 适用于多种规模

金句 / Highlights

值得收藏与分享的关键句。

我们开发了自己的推理引擎Runtime-Optimized Serving Engine (ROSE)，支持从嵌入到万亿参数LLM的模型服务。
— 第 2 段
⬇︎ 下载 PNG 𝕏 分享到 X
通过将CuTeDSL集成到我们的推理引擎中，Perplexity可以更快地构建专用GPU内核，从而加快模型的速度。
— 第 3 段
⬇︎ 下载 PNG 𝕏 分享到 X
Perplexity运行在NVIDIA上。团队很好地展示了他们如何使用CUTLASS Python栈来优化其模型的推理。
— 第 1 段
⬇︎ 下载 PNG 𝕏 分享到 X

#NVIDIA#AI#CUTLASS#推理引擎

标题：NVIDIA AI on X: "Perplexity runs on NVIDIA.

团队很好地介绍了他们如何使用 CUTLASS Python 堆栈来优化他们的模型以进行推理 👇" / X

URL 来源: https://x.com/NVIDIAAI/status/2052495856813981753

Markdown 内容:

图片 1: 方形头像

NVIDIA AI ![图片 2](https://x.com/NVIDIAAI)

Perplexity 运行在 NVIDIA 上。团队很好地介绍了他们如何使用 CUTLASS Python 堆栈来优化他们的模型以进行推理图片 3: 👇

引用

图片 4: 方形头像

Perplexity

@perplexity_ai

5月6日

我们开发了自己的推理引擎 Runtime-Optimized Serving Engine (ROSE)，用于服务从嵌入到万亿参数 LLMs 的各种模型。通过将 CuTeDSL 集成到我们的推理引擎中，Perplexity 可以更快地构建专用的 GPU 内核，从而将模型提升至

图片 5: 图片

晚上 9：08 · 2026年5月7日

47.6K 浏览量