Sequoia Capital视频2026年6月3日

Cursor | 为什么在线强化学习只是锦上添花

7.5内容质量

可直接观看的视频资源打开原视频

TL;DR · AI 摘要

在线强化学习并非打造模型的基础，而是在模型已具备一定质量后，进一步提升用户体验的优化手段。

核心要点

在线强化学习只是辅助优化，不是核心训练方法。
模型需要先通过离线强化学习达到基本标准，用户才愿意使用。
在线强化学习只能改进已有模型，不能从零开始训练。

结构提纲

按章节快速跳转。

§离线与在线强化学习的区别
离线用于初步训练，在线用于实时优化。
·在线强化学习的门槛
模型必须足够好，用户才会提供反馈。
›在线强化学习的定位
只能作为优化手段，不能从头构建模型。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

Online RL的角色
- 区别于Offline RL
  - 实时强化 vs 离线训练
- 前提条件
  - 模型需预先达标
- 作用定位
  - 优化而非从零构建

金句 / Highlights

值得收藏与分享的关键句。

模型必须达到一定标准才能进行在线强化学习。
— 0:27
⬇︎ 下载 PNG 𝕏 分享到 X
我们不能用它从零开始创建模型，因为用户需要使用这个模型。
— 0:41
⬇︎ 下载 PNG 𝕏 分享到 X
这就像在顶部加上樱桃，真正获得超级美妙的体验。
— 0:50
⬇︎ 下载 PNG 𝕏 分享到 X

#强化学习#机器学习#AI模型优化