CuTe DSL for JAX Developers: Writing Custom GPU Kernels in Python
TL;DR · AI 摘要
CuTe DSL 提供了一种新的方式让 JAX 开发者编写自定义 GPU 内核,简化了 GPU 编程。
核心要点
- CuTe DSL 简化了 JAX 开发者的 GPU 编程。
- CuTe DSL 支持 Python 编写自定义 GPU 内核。
- CuTe DSL 提高了 GPU 内核开发的效率。
结构提纲
按章节快速跳转。
思维导图
用一张图看清主题之间的关系。
查看大纲文本(无障碍 / 无 JS 友好)
- CuTe DSL for JAX Developers
金句 / Highlights
值得收藏与分享的关键句。
CuTe DSL 是一种新的编程语言,旨在简化 JAX 开发者的 GPU 编程。
CuTe DSL 支持 Python 编写自定义 GPU 内核,提高了开发效率。
CuTe DSL 在实际项目中的应用案例展示了其高效性和易用性。
视频笔记
CuTe DSL 针对 JAX 开发者:用 Python 编写自定义 GPU 内核
返回 
跳过导航
搜索
用声音搜索
[](https://www.youtube.com/watch?v=4c8qFBbsDb0)

[](https://www.youtube.com/watch?v=4c8qFBbsDb0)
[](https://www.youtube.com/watch?v=4c8qFBbsDb0)
[](https://www.youtube.com/watch?v=4c8qFBbsDb0)
[](https://www.youtube.com/watch?v=4c8qFBbsDb0)
CuTe DSL 针对 JAX 开发者:用 Python 编写自定义 GPU 内核
[](https://www.youtube.com/watch?v=4c8qFBbsDb0)
轻触取消静音
2倍速
CuTe DSL 针对 JAX 开发者:用 Python 编写自定义 GPU 内核
NVIDIA 开发者 1,297 观看次数 3 天前
[](https://www.youtube.com/watch?v=4c8qFBbsDb0)
搜索
复制链接
信息
购物
如果播放无法立即开始,请尝试重启设备。
•
您已退出登录
您观看的视频可能会被添加到电视的观看历史中,并影响电视推荐。为了避免这种情况,请取消并使用电脑上的 YouTube 登录。
取消 确认
[](https://www.youtube.com/watch?v=4c8qFBbsDb0)
分享
[](https://www.youtube.com/watch?v=4c8qFBbsDb0 "分享链接")- [x] 包含播放列表
检索共享信息时发生错误。请稍后再试。
0:00
[](https://www.youtube.com/watch?v=4c8qFBbsDb0)[](https://www.youtube.com/watch?v=XKSjCOKDtpk "下一个 (SHIFT+n)")
0:00 / 0:00
直播
•完整观看视频
•
介绍
•
34:33 新芯片工厂让台积电感到恐惧 Anastasi In Tech 698K 观看次数 • 3 周前 直播 播放列表 ()混合 (50+)13:14 让 ASML 感到恐惧的突破 Anastasi In Tech 484K 观看次数 • 12 天前 直播 播放列表 ()混合 (50+)15:06 在 6GB 显存上运行一个 35B 的 AI 模型,快速 (llama.cpp 指南)Codacus 146K 观看次数 • 5 天前 直播 播放列表 ()混合 (50+)19:48 我测试了最便宜的 96GB 显存路径 Alex Ziskind 290K 观看次数 • 1 个月前 直播 播放列表 ()混合 (50+)56:51 图灵奖得主:不同意谷歌、Postgres 和未来问题 | Mike Stonebraker Ryan Peterman 279K 观看次数 • 2 周前 直播 播放列表 ()混合 (50+)20:19 为什么 AI 代理要么是我们有史以来最好的东西,要么是最糟糕的东西 Hannah Fry 948K 观看次数 • 8 天前 直播 播放列表 ()混合 (50+)16:29 为什么我在 1994 年从 Windows COM 中删除了 printf() Dave's Garage 162K 观看次数 • 5 天前 直播 播放列表 ()混合 (50+)17:36 为什么 Adam Savage 不信任 USB 密钥 Adam Savage’s Tested 928K 观看次数 • 1 个月前 直播 播放列表 ()混合 (50+)6:15 Kavanaugh Hegseth Patel 条冷开场 - SNL 周六夜现场 700K 观看次数 • 7 小时前 直播 播放列表 ()混合 (50+)4:37 周末更新:特朗普将伊朗武器发射视为“轻拍”,Kash Patel 的个性化威士忌 周六夜现场 220K 观看次数 • 5 小时前 直播 播放列表 ()混合 (50+)35:53 证明我们仍然不理解磁性的微小甜甜圈 Veritasium 8.2M 观看次数 • 3 个月前 直播 播放列表 ()混合 (50+)9:50 他们对你撒谎关于 AI (这项研究证明了这一点)Caleb Ulku 271K 观看次数 • 1 个月前 直播 播放列表 ()混合 (50+)
1倍速
登录以确认您不是机器人 这有助于保护我们的社区。了解详情
CuTe DSL 针对 JAX 开发者:用 Python 编写自定义 GPU 内核
NVIDIA 开发者
210K 订阅者
订阅
已订阅
61
分享
保存
下载
下载
1.2K 观看次数 3 天前#JAX#CUTLASS#CUDA
1,297 观看次数 • 2026年5月6日 • #JAX #CUTLASS #CUDA
CuTe DSL 针对 JAX 是一种实用的方法,可以在 Python 中编写高性能的 GPU 内核,同时保持您的工作流程在 JAX 生态系统内。在这个视频中,我们将探讨如何通过 CuTe DSL for JAX 构建自定义 NVIDIA GPU 内核,然后像调用原生 JAX 操作一样调用它们……更多内容
...更多内容
制作方法
自动配音
音频轨道对于某些语言是自动生成的。了解更多信息
章节
查看全部

#### 引言
0:00

#### CUTLASS, CuTe DSL 及其存在的原因
1:51

#### 双层内核结构
3:36

#### 向量加法
4:13

#### cutlass_call 究竟在做什么
5:51

#### SAXPY 和标量参数
6:52

#### 使用扁平索引的 ReLU
7:44

#### 融合偏置和 ReLU 以及融合的重要性
8:29
字幕
使用字幕跟随
显示字幕

显示更少
[](https://www.youtube.com/hashtag/jax)#JAX#CUTLASS#CUDA