Frontier post-training recipe review with Finbarr Timbers

Interconnects AI

Interconnects AI2026年6月16日

Frontier post-training recipe review with Finbarr Timbers

8.5Score

TL;DR · AI 摘要

2026年前沿模型训练方案转向多专家蒸馏（MOPD），通过多个领域专家模型训练后合并为一个通用模型，显著提升效率与性能。

核心要点

MOPD（多专家蒸馏）是2026年前沿模型训练的核心方法。
MiMo Flash V2首次引入MOPD，DeepSeek V4和Nemotron 3 Ultra将其扩展至超过10个专家。
MOPD通过减少RL成本和冲突，提升模型性能与组织可扩展性。

结构提纲

按章节快速跳转。

§引言
介绍Finbarr Timbers对前沿模型训练方案的回顾与分析。
·历史回顾
从InstructGPT到Llama 3，模型训练方案的演变过程。
·2026年模型训练方案
介绍MiMo Flash V2、DeepSeek V4等模型的训练方法。
›MOPD方法
MOPD通过多专家蒸馏提升模型性能与组织可扩展性。
·未来展望
讨论MOPD在模型训练中的广泛应用与潜在影响。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

前沿模型训练方案
- 历史演变
  - InstructGPT (2022–2023)
  - Llama 3 / Tülu 3 (2024)
  - DeepSeek R1 (2025)
- 2026年方案
  - MiMo Flash V2
  - DeepSeek V4
  - Nemotron 3 Ultra
  - MOPD方法

金句 / Highlights

值得收藏与分享的关键句。

MOPD通过多专家蒸馏，显著提升模型性能与组织可扩展性。
— 第 3 段
⬇︎ 下载 PNG 𝕏 分享到 X
MiMo Flash V2首次引入MOPD，DeepSeek V4和Nemotron 3 Ultra将其扩展至超过10个专家。
— 第 4 段
⬇︎ 下载 PNG 𝕏 分享到 X
RL成本高且冲突多，MOPD通过专家模型训练后合并为一个通用模型，解决此问题。
— 第 5 段
⬇︎ 下载 PNG 𝕏 分享到 X

#模型训练#MOPD#深度学习#前沿技术

打开原文

与 Finbarr Timbers 一起回顾前沿的微调配方

互连

与 Finbarr Timbers 一起回顾前沿的微调配方

1×

0:00

当前时间：0:00 / 总时长：-56:35

-56:35

您的浏览器不支持音频播放。请升级浏览器。

与 Finbarr Timbers 一起回顾前沿的微调配方

“访谈” #18

Nathan Lambert

2026年6月16日

转录文本

在我回顾微调基础知识并完成我的RLHF/微调书籍时，我知道我需要再次邀请Finbarr Timbers回到播客上，讨论当前的状况。在过去的几个月里，我们讨论了很多关于如何将类似Olmo的配方推向前沿所需的内容，这些讨论得到了Finbarr对最近模型技术报告的广泛阅读的支持。

为了准备这次访谈，我整理了一份关于历史上关键微调配方的摘要幻灯片——从InstructGPT到现在的路径，以及当前的关键开放前沿模型。这份幻灯片在下面以技术摘要的形式进行了总结，但我们在播客中花费了20到35分钟来讨论它，因此在YouTube上观看可能是体验最好的方式。

我之前在2024年12月采访过Finbarr，那时o1和Tülu 3刚刚发布（在他加入Ai2之前），当时我们讨论了RL的“我们回来了”时代。

章节：

00:00 介绍与Olmo的反思

06:28 微调配方回顾（历史）

23:00 2026年的模型配方（MiMo Flash，DeepSeek V4，GLM 5，Kimi K2.6等）

39:05 开放式微调讨论

48:22 在LLM竞赛中的职业建议

在Apple Podcasts、Spotify以及您获取播客的任何地方收听。如需其他Interconnects访谈，请点击此处。

如需更多关于微调的教育视频，请查看我正在整理的课程。

技术摘要

这些笔记是从AI协助创建的幻灯片中整理出来的——主要用作讨论主题和参考资料。

在过去的这一年里，微调配方的形态变化比之前三年的变化都要大。

2022–2023（InstructGPT）：一个流程——SFT → 奖励模型 → RL。

2024（Llama 3，Tülu 3等）：开放配方正式化SFT → DPO → RL，使用可验证的奖励。封闭配方使用多个阶段的RLHF。

2025（DeepSeek R1）：推理RL（R1）使大规模RL成为核心。

2026（MiMo Flash V2）：配方分裂成多个专业模型，然后合并成一个。

新事物：MOPD

多教师策略（MOPD）是2026年前沿中出现的模式。

训练N个领域专家教师（每个：SFT，然后在相关领域进行RL）。

通过采样自己的轨迹训练一个通用学生（这是最终的微调模型）。

在每次执行中，按标记最小化与相关教师输出分布的逆KL散度。

起源：MiMo Flash v2引入了它 → DeepSeek V4和Nemotron 3 Ultra将其扩展到超过10个教师。

为什么MOPD会出现？

RL变得昂贵且容易发生冲突。在一个运行中混合数学、代码和代理RL最终会相互削弱能力。

专家模型便宜且组织上可扩展。在一个领域上进行SFT然后RL已被充分理解且可并行化。随着微调变得越来越复杂，跨组织扩展它是一个巨大的优势。

策略蒸馏成熟。随着RLVR复兴，文献和专业知识继续涌现。

来源：DeepSeek V4 §5.1、MiMo-V2-Flash

关键历史配方

InstructGPT（2022年3月）——经典的三步 · 论文

在人类演示数据上进行监督微调（SFT）

在人类比较数据上训练奖励模型

使用奖励模型进行PPO训练

Llama 2（2023年7月）——多阶段RLHF · 论文 · Interconnects回顾

先进行SFT，然后在多轮中进行迭代RLHF

每一轮：拒绝采样 → PPO

两个奖励模型 —— 分别用于评估有用性和安全性

Llama 3（2024年7月）——一个复杂的多阶段方案，使用更简单的优化器 · 论文 · Interconnects回顾

每一轮：奖励模型 → 每个提示生成K个样本 → 拒绝采样 → SFT → DPO

没有在线RL —— 奖励模型仅用于过滤；运行超过6轮，最佳模型用于下一轮

Tülu 3（2024年11月）——一个简单的三阶段后训练 · 论文 · Interconnects回顾

精选提示 → SFT → DPO → RLVR（使用可验证奖励的强化学习 —— 该缩写在本文中首次提出）。

OLMo 3（2025年12月）——对Tülu 3方案的推理更新 · 论文 · Interconnects回顾

DeepSeek R1（2025年1月）——强化学习作为核心 · 论文 · Interconnects回顾

方案：

R1-Zero —— 仅在基础模型上进行纯强化学习（GRPO），不进行SFT；用于为完整运行种子推理行为，而不是作为独立产品

R1 —— 冷启动SFT → 推理RL → 拒绝采样SFT → 最终RL → 蒸馏到密集模型

方案的重大变化：大规模RLVR作为主要驱动因素，SFT用于蒸馏和优化RL行为

DeepSeek 在V3之后的演进

V3 · 2024年12月 —— SFT + GRPO 强化学习。

R1 · 2025年1月 —— 多阶段强化学习；推理能力开始显现。

V3.1 · 2025年8月 —— 一个模型中混合思考和非思考。

V3.2 · 2025年12月 —— 通过强化学习训练出6个专家 → SFT蒸馏 → 一个混合GRPO。

V4 · 2026年4月 —— 10+领域专家 → MOPD。

2026风格的方案！

MiMo Flash v2（2026年1月）——MOPD的起点 · 论文

阶段：阶段1 SFT → 阶段2 训练约6个领域专家教师（使用旧版后训练方案） → 阶段3 MOPD训练成一个学生。

首次清晰地提出多教师在策略上的蒸馏作为整合步骤 —— 用从专家中蒸馏替换单一的、集中的RL阶段。

Nemotron 3 Ultra（2026年6月）——两轮，多位教师 · 论文

阶段：SFT → 多教师在策略上的蒸馏，运行两轮，超过10位教师涵盖推理、代码、数学和代理领域。

创新点：跨不同领域的多轮MOPD —— 先蒸馏，然后从更新的教师重新蒸馏。

MAI-Thinking-1（2026年6月）——更接近R1而不是V4 · 宣布

阶段：中等训练的基础模型 → 3个专业RL“攀登”（如STEM） → 轨迹蒸馏SFT用于整合这些攀登 → 最终RL攀登 → MAI-Thinking-1。

更接近DeepSeek R1而不是V4 —— 多阶段RL结合轨迹蒸馏SFT进行整合，而不是使用策略上的MOPD。并不是唯一没有使用MOPD的实验室！

Kimi K2.5（2026年1月）——代理、多模态 · 论文 · 博客

阶段：仅文本SFT → 跨代码、视觉、推理和代理任务的文本-视觉联合RL。（没有提到MOPD。）

GLM-5（2026年2月）——按能力分阶段的RL · 论文

阶段：基础模型 → SFT → 推理RL → 代理RL → 通用RL。

转录文本

00:00:00 Nathan Lambert：大家好，我们又回到Interconnects的对话中。我其实不太说自己在做采访。人们批评我，因为我经常打断嘉宾。因为我不是一个好的采访者，但我在这里是为了娱乐大家。对我来说，这也是很有趣，因为我正在尝试制作一个后训练课程，它某种程度上适合我，作为这个高级部分的结尾。

所以，这在某种程度上是连接内容和其他一些我这个夏天一直在投入时间的事情之间的交叉点。我很高兴欢迎 Finbarr 回来。我想……你是第一个回来的嘉宾吗？我还没有检查。

00:00:37 Finbarr Timbers: 哦，哇。

00:00:37 Nathan Lambert: 嗯，Finbarr 和我在 AI2 一起工作了一段时间，负责这种训练后配方之类的工作。我最近离开了。这是 Finbarr 在 AI2 的最后一天之一。这已经宣布了，这里不是剧透。我们将大致回顾一些关于构建 OLMO 的训练后配方的内容。然后我们有一个简短的幻灯片和一些关于前沿训练后配方状态和随时间演变的笔记，这非常有趣，因为目前有大约两到四种经典的配方。

当你看到领域在某些新事物上达成一致时，这很有趣，目前它正在通过多教师策略的策略蒸馏上实现这一点。出于某种原因，这有点拗口。这是一个很长的缩写。然后我们将以一些关于训练后和我们正在做的事情的讨论点结束。所以，如果你有任何想要先分享的观点，我很乐意让你先发言，以吸引听众的注意。否则，我认为我很兴奋能回顾一下这个，因为我知道你最近读了很多论文，并为此做了很多准备，打下了基础。

00:01:43 Finbarr Timbers: 是的，没错。我的意思是，今天是我在 AI2 的最后一天，所以，由你来招募我加入 AI2，现在和你谈话感觉非常合适。是的，这非常特别，很高兴能成为第一个重复嘉宾。我感到非常荣幸能再次回来。是的，谢谢你们邀请我。

00:02:03 Nathan Lambert: 是的。我们是否要从 OLMO 开始？我认为……

00:02:05 Finbarr Timbers: 当然。

00:02:06 Nathan Lambert: ……人们……我想我需要小心地去做这件事，但我已经多次和人们谈论过 OLMO-3 的训练后工作。我还没有在播客上以非常直接的方式做过这件事，但我想说，训练后 OLMO-3 以创建这个推理模型是一个重大成就，是许多个人共同努力的结果。但同时，我们所做的事情的复杂性也正在挑战 AI2 的组织能力的极限，而现代的训练后工作，就像你能够将计算数据整理成一个工作流的能力。

为了以复杂的方式做到这一点，你实际上是在整理组织结构图。这就是为什么 OLMO-3 本质上作为推理模型来说，推出得相对较晚的原因。它是一个非常僵硬的推理模型，而这部分也反映在配方相对简单上。但当你将其与所有这些新配方进行比较时，这些新配方包括工具使用和多教师蒸馏等，这就像是一个岔路口，你可以做这个非常简单的事情并创建一个强大的配方，但它并不能代表所有前沿实验室正在做的事情。

我认为，这种能够说明事物相似性的分叉大概是在Tulou-3之后发生的。我认为，Tulou-3的训练过程也相对简单，采用了三阶段的SFT-DPO RL配方。但这种更简单的配方可能在最终结果上更接近实验室的做法。然而，现在如果要为一个推理模型，特别是像工具使用这样的代理模型，采用这种三阶段的配方，就不太适用了。这就是关键所在。我认为，这期播客的重点就是探讨他们是如何打造这些真正前沿模型的，以及它们与更开放的学术模型之间有哪些不同。

00:03:56 Finbarr Timbers：嗯，实际上，我觉得这个很有趣。你是怎么从Tulou-3过渡到OLMO-2的？你知道，我只是在OLMO-3的时候才加入的，之前版本我都没参与过。根据Archive上的信息，我记得Tulou-3是在2024年11月发布的，而OLMO-2则是在2024年12月发布的。

00:04:22 Nathan Lambert：我们只是应用了那个配方。

00:04:24 Finbarr Timbers：是的。我的意思是，我觉得其实就是这样，然后，你知道，DeepSeeker-1是在2025年1月末发布的，之后OLMO-3是在10月发布的。是10月还是11月？我想是——

00:04:39 Nathan Lambert：我想是11月。

00:04:41 Finbarr Timbers：是的，11月。没错，是11月。所以——

00:04:43 Nathan Lambert：我们当时是抱着“要么成功，要么完蛋”的心态在感恩节前完成的。

00:04:45 Finbarr Timbers：我记得。嗯，是的，因为加拿大的感恩节已经过去了——

00:04:50 Nathan Lambert：是的。

00:04:50 Finbarr Timbers：……是的，我对此感到很高兴。不过，我觉得虽然确实有点晚，但只是晚了几个月。你知道，如果我回想一下过去模型的开发周期，比如R1发布时用了九个月，这其实并不算太糟糕。我认为，如果能缩短到六个月，那就更好了，但——

00:05:12 Nathan Lambert：我觉得进展缓慢，是因为我们没有重新构建R1的配方。如果我们重新构建了R1的配方，速度会更快。但我们做的是将推理能力引入到我们现有的配方中——

00:05:21 Finbarr Timbers：是的，好的。

00:05:22 Nathan Lambert：……这其实是一个更简单的任务，但在我看来，天花板较低。而像DeepSeek和更新的配方，我们稍后会谈到，我认为它们在持续提升方面有更高的上限。或者说，它们更明确地描述了前沿模型的训练方式。对于OLMO的模型规模，比如7到30B，我不确定这种DeepSeek风格的RL配方是否真的有用。

00:05:52 Finbarr Timbers：嗯，我觉得你说得对，这是一个很好的观点。而且，我认为这在研究中确实有所体现。你显然能看到巨大的进步，而且你知道，当R1发布时，进展速度有多快。所以，我觉得这是一个非常重要的观点，而且确实看起来，或者没有看起来，与计算资源的使用是相关的。

00:06:11 Nathan Lambert：是的。嗯，我们直接进入幻灯片内容吧？我们一直在谈论这些“配方”——

00:06:15 Finbarr Timbers: 好的，我们开始吧。

00:06:16 Nathan Lambert: ...名字。我觉得这样做可能很有用，因为很多人可能想关注，但不一定清楚具体怎么做。我打算分享屏幕。所以正在听的朋友们，你们可以将这个幻灯片在手机上打开，然后点击浏览。它并不包含太多信息，但你也可以直接在YouTube上观看。所有内容都会附上链接。

总的来说，这只是一个快速调查，了解前沿配方是如何演变的。我们会快速回顾一下历史，然后谈谈目前的情况，并可能穿插我们之前讨论的旧模式。好的，我们将会谈到很多经典的配方。这就是我得到“2到4”这个数字的地方。我认为这些配方包括像InstructGPT这样的，它首次提出了这种三阶段的RLHF方法，这个方法花了很长时间才被人们接受，当时是SFT（监督微调）、奖励模型和RL（强化学习）。

我还看到像Llama 3和2.3这样的模型，它们在实际中应用了这些方法，并结合了其他一些技巧。所以这两个可能可以合并在一起。这就像ChatGPT之前和之后的时刻。然后，我认为在本次讨论中，最近的两个经典配方是DeepSeek-R1，它标志着从之前的SFT（监督微调）重点转向了更注重推理和更大规模的RL（强化学习）阶段，以及NeMo Flash和2026年的一些新模型，它们引入了蒸馏这一元素。

00:07:42 Finbarr Timbers: 此外，我认为值得一提的是，这不仅仅是NeMo Flash，这其实是一个持续的主题。比如你看到DeepSeek也提到了这一点，他们在V3论文中提到过，然后还有Qemi K 2.5、GLM 5等，这些论文都开始讨论这种专门的RL（强化学习）阶段。

00:08:03 Nathan Lambert: 是的。我认为关于如何定义它，以及蒸馏是否……如果你将蒸馏作为一种技术，作为一种关键的里程碑，那么小米是第一个，但随着时间的推移，你会看到它们逐渐发生变化，我们会详细讨论这一点。我不需要打断。

00:08:23 Finbarr Timbers: 当你提到蒸馏时，我认为区分一下直接蒸馏领先的封闭模型和这些领域特定模型的蒸馏是很重要的。我怀疑中国实验室在这两方面都在进行。

00:08:41 Nathan Lambert: 是的。

00:08:41 Finbarr Timbers: 但你知道，他们所做的很多工作，其实是在训练这些领域特定的模型，比如数学模型、编程模型、逻辑模型等等，然后将这些模型重新蒸馏回去，而不仅仅是从……所以当我们谈到蒸馏时，它不仅仅是从领先的封闭模型中进行蒸馏。

00:09:01 Nathan Lambert: 是的。确实很痛苦。我同意。蒸馏这个术语被严重滥用了。嗯，有一张回顾的幻灯片。我们需要回顾一下多教师策略蒸馏吗？可能太复杂了，暂时不需要做。我们可以之后再回来处理。我认为我更想先介绍实际的模型，然后根据需要使用支持幻灯片。嗯，这个著名的 InstructGPT 三步流程，我想很多人都听说过，但当时 ChatGPT 发布时，这就是构成后期训练的内容，因此这种基于人类监督的 SFT 数据，主要是基于人类监督的偏好排序来构建奖励模型，然后在该模型上进行强化学习，从而使模型表现更好。

这些方法在我们目前公开所知的范围内，至少已经逐渐被淘汰了，因为我们现在在 SFT 中使用的人类演示数据并不多。可能仍然有一些人类偏好数据在流程中，但我猜测合成数据扮演了更重要的角色，而且确实存在奖励模型，但它们不再是主要的强化学习目标。在四年的时间里，几乎所有经典的组成部分都发生了变化。这种演变就包含其中。我认为 InstructGPT 之后的早期模型，比如 Llama 2，甚至 Llama 3，这些模型都相当类似，它们开始使用像投影采样、DPO 等不同工具来分解这个流程，并增加了迭代次数。我认为增加迭代次数是因为人们更有动力从模型中榨取更多价值，他们只是更彻底地分解了流程，而 InstructGPT 看起来更像是一个更开放的研究，这种清晰度是可以接受的。

00:10:48 Finbarr Timbers: 嗯，我觉得这很有趣，关于所有事情的扩展程度，对吧？因为，你知道，InstructGPT 是在 ChatGPT 发布之前完成的，所以当时所做的复杂程度，是一个小团队甚至一个团队就能完成的。但当你开始看 Llama 3 时，它就变成了一个更复杂的流程，你开始需要大量的专门数据，而且有更多空间投入规模、资金和复杂性。

00:11:25 Nathan Lambert: 是的。无论是营利性还是非营利性组织，他们想要我为他们的后期训练提供建议，而我说：“除非我每周花二十个小时去了解你们流程的细节，否则我不知道如何给你们建议。”因为，我不能在不了解模型和后期训练流程所有复杂性的前提下，就告诉你们一句“做 X”之类的话。这使得从透明度的角度来看，事情变得很困难。即使流程完全详细，修改和研究起来仍然非常困难。

00:12:00 Finbarr Timbers: 完全正确。

00:12:02 Nathan Lambert：所以在AI2的第二到第三阶段，我们尝试超越Llama 3的微调结果，这其实非常复杂，但我们无法像其他组织那样进行大规模扩展。我认为这正是实际工作流程变得简单得多的主要原因，我们有三个明确的阶段，每个阶段执行不同的任务，并且它们相互构建。这一点在这些论文中通常没有明确说明，即组织结构如何影响训练方法，但我认为这在完全公开的研究和工业界部分公开的研究之间是一个非常强烈的信号。

00:12:43 Finbarr Timbers：没错，尤其是当我们看到领域特定模型时，这一点非常清晰，你可以很容易地扩展组织结构来—

00:12:54 Nathan Lambert：没错

00:12:54 Finbarr Timbers：…构建它。

00:12:56 Nathan Lambert：没错。我在这之后加入了Olmo 3，主要是为了展示这个训练方法与第二到第三阶段非常相似，组织结构也没有太大变化。我们并没有更多的扩展能力，模型类型之间，比如思考模型和指令模型之间，有一些分离。但如果没有重大的组织结构变革，它就只能停留在这个阶段，尽最大努力去完成。

00:13:22 Finbarr Timbers：没错，完全正确。

00:13:23 Nathan Lambert：因为DeepSeeker-one带来了真正的重大变化。我以前从未见过这样的图表，但他们在论文的自然版本中加入了这个图表，展示了他们的训练方法。他们从基础模型开始，进行RL zero训练，然后从RL zero中采样以过滤提示，再将这些用作SFT。他们用这些数据训练下一个模型版本，生成一个内部的RL DeepSeek-R1，然后反复采样以训练多个RL版本，并进行蒸馏，即在最终流程之前澄清和优化模型的推理行为。最终流程再次是推理和非推理SFT的混合，形成一个更大的RL训练。

00:14:11 Finbarr Timbers：嗯，我觉得这非常有趣，因为它开始显示出这里的复杂性。我们开始使用合成数据作为主要输入，但不仅仅是这样，它试图引导出特定的行为，这更像是一个工业流程，而不是一个优雅的研究方法。它更像是我们训练一个模型，然后尽可能地使用它，并不断迭代。我认为另一个有趣的地方是，我们在这里开始看到SFT作为冷启动的起点。首先，SFT之前更多是一个通用有用的阶段，而在这里，它的主要目的是为RL提供冷启动。

然后，另一个有趣的地方是，DPO 在这个时候开始从领先的训练方案中消失。Olmo 3 仍然使用它，但基本上其他所有人都放弃了它，而是将偏好信息包含在奖励模型中，或者以某种方式在强化学习阶段的奖励部分进行处理。这是一个非常有趣的转变，即在微调阶段的监督部分被大大降级了。

00:15:27 Nathan Lambert：是的。我对于这些模型中 DPO 的减少的假设是，当你进行更干净的训练方案时，这种需求就会消失。而如果你看一下 Olmo，它通过在强开源权重模型的输出上对模型进行微调，从而获得了大量潜在的收益，Olmo 3 的 SFT 训练数据主要来自于 Qwen 和 DeepSeek。这种 SFT 数据与基础模型之间的差异在概率分布上仍然很大。DPO 在某种程度上可以帮助进一步优化和清理这种分布，而这种分布的边缘非常粗糙。但当你在微调阶段使用更精细、更工业化的流程时，这种潜在的收益将更难获得。在我之前没有完全确认的一个有趣点是，例如，NVIDIA 以前也在这条 DPO 的道路上，他们的小型 Nemotron 模型也是如此。

我猜测，像 Nemotron Ultra 这样的模型可能不会使用 DPO。这是因为它们在这条发展树上走得更远，并且在生成 SFT 数据时更多地使用了基于策略的方法。我猜测它们的模型将更加鲁棒，分布外表现更好，边缘也会更加平滑。所以，这就是我对 DPO 的假设，使用 DPO 的人可能会被看不起。但如果你试图从零开始构建一个训练方案，并尽可能地获取收益，我认为它对很多人来说仍然有效，尤其是在计算效率方面。

00:17:05 Finbarr Timbers：是的。我认为，总体而言，偏好调优方面有一些有趣的现象，它可能没有得到应有的重视。Nemotron 3 的那篇超级论文中，一个有趣的点是他们进行了传统的 RLHF 阶段，这在强化学习中已经不再流行，但他们通过这种方式获得了非常显著的收益。因此，我认为这些变化更多是受到流行趋势的驱动，而不是完全严谨的消融实验。

00:17:41 Nathan Lambert：对我来说，偏好损失函数对这些模型能起到如此大的作用非常令人惊讶。这些模型有如此大的潜力，而它只是基于非常细致的反馈进行对比损失。它们能够学习各种各样的东西，比如数学和编程能力会提升，或者推理策略会得到优化。对我来说，这非常令人印象深刻。我认为，仍会有有趣的研究，比如使用基于偏好损失函数和可验证输出的损失函数。我认为所有这些方法都有效，比如在可验证奖励上使用 DPO，只是在智力上吸引力略低。

00:18:19 Finbarr Timbers: 是的。我认为这就是所谓的delta学习假设风格，比如DPO，就像Olmo-3所做的那样，你通过创建这些合成偏好来获得偏好，比如在同一家族中使用更大和更小的模型。我认为这是一个非常有趣的信号，因为它似乎与我们在扩散模型中看到的一些工作和指导方法非常相似，比如无分类器的指导，这有类似之处，而且在那里的结果也非常相似，表明你可以通过——

但其中一个信号是他们使用了训练后期的模型，而不是训练早期的模型，作为引导信号的来源。这种方法效果非常好。因此，我怀疑这些信号，以这种方式用于偏好，可能实际上更加稳健，但因为一些最大的实验室不需要这样做，也许我们引用它们的次数不多。

00:19:18 Nathan Lambert: 是的。或者他们没有告诉我们。继续这个话题，看看DeepSeek模型，它们基本上经历了我称之为类似于Llama的配方，到DeepSeek-R1，这可以说是推理模型的典范配方，然后继续向这种多教师格式靠拢。如果你看看VC-3.3论文，在R1之前，他们做了非常类似两到三类型的事情，他们混合使用了SFT，然后使用了可验证奖励的强化学习。他们当时没有这样称呼，或者他们的论文当时还没有发表。因此，在R1发布之前，他们就做了这些事情，当时只是较少专注于推理的模型，使用了相同的工具，但实现权重的比例不同。

00:20:07 Finbarr Timbers: 有趣的是，这几乎与两到三同时出现，而且与Olmo-2非常相似。这是非常相似的配方，只是更加完整。

00:20:16 Nathan Lambert: 是的。是的。然后我们还有R1，我们在一月份已经详细讨论过它，也就是一个月之后。他们通过这一系列发布了一些更新，对他们的V3和R1模型进行了更新，这些模型的日期基本上使用了相同的配方。然后他们配方中下一个有记录的更改是V3.1，这时他们将思考和非思考合并为一个模型，所有进行过这种操作的人都说，训练这个模型非常困难。但从服务的角度来看，你确实需要它，而且从长远来看，至少对我来说，很明显所有模型最终都会成为推理模型，你将只拥有基于现有收益的非常高效的推理模型。

因此，这可以说是一种必要的改变。然后在2025年12月，他们发布了V3.2版本，这个版本中有一些重要的变化，他们提到了一种专家创建方法，其中包含独立的小型配方，并在他们的R1数据处理过程中使用这些配方进行SFT数据处理，最后进行一次大规模的RL训练，使用GRPO。这个过程大约持续了一年，R1风格配方的演变才最终体现在他们的模型中。我认为这一步骤非常复杂，不像Olmo-3那样被体现出来，而且随着时间的推移，你可以看到配方的分叉，因为它们在这些前沿实验室中变得越来越工业和规模化。

00:21:46 Finbarr Timbers：是的。而且，我认为从历史角度来看，这里还有一个不错的地方，就是我认为是在O3-24版本发布时，他们更新了最初的V3论文。V3是在R1之前发布的，然后是R1，而R1发布后，他们实际上又回去更新了V3论文，可能是为了准备向《自然》杂志提交，或者其他什么。

00:22:07 Nathan Lambert：是的。

00:22:07 Finbarr Timbers：嗯，他们在那部分提到了，比如，“哦，你知道，你可以做的一件事是训练这些领域专家模型，然后将它们结合起来。”然后，这后来成为V3.2中他们讨论的重点之一。

00:22:21 Nathan Lambert：这是一个有趣的备注。是的。然后最近在4月26日，他们发布了V4模型，这个模型包含更多专家。他们为多教师策略蒸馏添加了一个新的损失函数，我之前提到过这是跟随Jiaoli的。这可以说是整个行业经历的一个缩影，至少对于那些分享他们后训练细节的人来说，他们逐渐认识到强化学习（RL）的核心地位，围绕扩展的RL调整配方，然后想办法在扩展的RL格式中扩展到更多领域，而不会因为操作复杂性而停滞不前。

00:22:58 Finbarr Timbers：是的。

00:23:00 Nathan Lambert：那么，接下来的阶段就是我所说的2026风格的配方，这些配方都是这些模型所采用的多教师知识融合方法。其中一些使用了策略内蒸馏，而另一些则没有。一个关键的看点是，策略内蒸馏在保持前沿地位方面有多重要。提出这个术语的论文是MimoFlash V2论文。我认为该模型是在12月发布的，而论文是在1月发布的，其中很多内容看起来会与这种RL、大型RL风格的配方相似。但大型RL运行中，策略内蒸馏正是发挥作用的地方。所以，我觉得现在是解释这一点的好时机，我有一个非常棒的小功能。

所以，这就是关于策略蒸馏中多教师方法的总结。一般来说，它适用于一个强化学习（RL）框架，其中你正在训练的模型（也就是通用模型）会采样自己的轨迹，然后将这些轨迹路由到你已经训练好的各种专家模型中。每种样本都会使用这种蒸馏KL损失函数进行训练，以匹配对应专家的token。人们已经通过多个模型证明，这种监督方式对模型非常有用。你可以将它与其他RL损失函数结合使用，比如可验证奖励，例如Sasha Rush对此做过一个很好的简短讲解，并展示了他们如何在Composer中使用它，这是一段我强烈推荐大家观看的视频。但关键在于，这是一种不同的损失函数，但它与人们已经在使用的RL框架非常兼容。因此，他们使用这些教师模型——

00:24:45 Finbarr Timbers：就像普通的RL一样，如果——

00:24:47 Nathan Lambert：是的

00:24:47 Finbarr Timbers：……实际上去实现它，你知道，我现在正在和AI2的一些人讨论如何实现它。你只需要拿你的RL设置，然后对学习者进行一些微调，就可以实现这个方法。所以这其实非常直接。

00:25:02 Nathan Lambert：是的，所以这是一个看起来很复杂但实际上并不需要那么复杂的高级图示，但它也是一个很好的图示，展示了他们拥有的各种领域教师模型，包括搜索代理、代码代理、数学推理、安全等，以及他们如何将这些组合在一起。专家模型既用于SFT数据，也用于最终的监督。专家模型的配方大致如下，就像DeepSeek的配方一样，这本身就很复杂，它类似于创建一个在某一方面非常出色的优秀推理模型。

00:25:29 Finbarr Timbers：嗯，我觉得这确实很复杂，但如果你作为实际研究人员去研究它，你就会知道，你有一个基础模型，还有一个RL设置，你只需要不断更新两者并重新运行RL。所以，最复杂的部分其实只是记录历史并追踪所有内容。但这种方式其实是一种非常自然、有机的方式，让RL通过迭代实验逐步发展。

00:25:57 Nathan Lambert：是的。所以一旦你有了一个配方，你就可以逐步对每个部分进行调整，它相对稳定，但很难从头开始重建。所以我们会看看这个配方能维持多久，但可能需要几年时间。此外，Nemotron-3 Ultra也分享了很多关于这种策略蒸馏方法的细节，这对我来说非常令人兴奋，因为这是一个在美国制造、性能非常强大的模型，NVIDIA还随它发布了大量数据集。

但他们还谈到了他们在策略蒸馏方面的一些非常具体的实现细节，也就是哪些地方很难处理。我好像在某个地方做过笔记。他们做了一件很特别的事情，就是进行了两轮策略蒸馏，因为他们发现，逐步引入一些教师模型效果更好。论文中还有更多细节。我不太想再去翻那篇论文了，不过我们也可以这么做。你还有其他印象吗？比如，我们还有另一份文档可以调出来——

00:27:01 Finbarr Timbers: 哦

00:27:01 Nathan Lambert: ...你也可能对它有其他一些细节了解。

00:27:03 Finbarr Timbers: 是的。我觉得还有另一点，我觉得这很值得将这篇论文与其他论文进行对比，比如Nemotron-3的那篇超级论文。因为在Nemotron-3的论文中，他们也有一个类似的复杂方案，但他们进行了多轮强化学习。比如，他们进行了三轮RLVR，接着是一轮软件工程强化学习，然后是RLHF阶段。所以，看到他们从如此复杂的强化学习设置，比如我所见过的最复杂的强化学习阶段之一，转变到一个虽然仍然复杂，但概念上要简单得多的设置，这非常有趣。

00:27:54 Nathan Lambert: 是的。我之前把这篇论文收藏起来了。对我来说，要重新回忆起来会有点困难……我之前有标记了一些细节。有趣的部分主要集中在他们对所有教师模型的各种NVIDIA细节上。他们的论文中有关于训练——

00:28:10 Finbarr Timbers: 是的

00:28:10 Nathan Lambert: ……所有教师模型的大量细节。我认为，我有部分内容。我这里有一些内容。比如，我有一个有趣的引述，它说：“从我们进行策略蒸馏的实验中得出的一个关键发现是，使用截然不同的训练流程训练的教师模型，无法通过简单的策略蒸馏合并来有效结合，这会导致性能不理想。”所以，他们必须进行跨教师对齐，以确保它们实际上相似，我觉得这可能会带来整个组织上的噩梦。他们提到：“我们假设，当教师和学生在不同的SFT数据上进行训练时，它们会获得不同的推理行为，并诱导出不同的输出分布。这种分布不匹配会导致学生生成的轨迹超出教师的分布范围，从而降低教师提供的监督信号的质量和可靠性。”

00:29:00 Finbarr Timbers: 是的，这其实很有趣，因为有一篇论文，我一时想不起名字，但我最近读过一篇论文，它声称你需要不断地……比如，你可以做的一件事，就是显而易见的事情，就是你拿你的基础模型，对吧？你进行你正在进行的通用SFT，然后你再进行大量强化学习，训练领域特定的代理，直到它们收敛，或者直到你没钱了。

嗯，然后你把这些最终的专家模型拿过来，再通过某种策略蒸馏的方法，把它们合并成你的最终模型。不过，我得找一下那篇论文，然后把它发给你，看看我们能不能分享一下。他们声称的是，你不能使用已经收敛的模型，而是需要分阶段进行，使用那些还在进行中的模型。比如，如果你训练了你的强化学习模型一千步，你就不能直接使用那一千步的检查点来进行策略蒸馏。你必须分阶段进行，先使用两百五十步的检查点和五百步的检查点，逐步让基础模型跟上进度，否则会出现太大的差异，KL散度也会变得太大，难以学习。

00:30:17 Nathan Lambert：是的

00:30:18 Finbarr Timbers：……

00:30:19 Nathan Lambert：是的。所以，我刚刚读到的这段话的最后一句话基本上是：“我们在实践中遇到了这个问题，因为教师模型和学生模型是并行开发的。”

00:30:29 Finbarr Timbers：是的。

00:30:29 Nathan Lambert：这就像他们在说：“这是一个问题，因为很难一次性完成所有事情。”这正是那种如果研究中能有相关成果会非常棒的地方，我认为NVIDIA可以发布一些教师模型，这样其他人就可以直接……

00:30:45 Finbarr Timbers：是的，那会很棒。

00:30:45 Nathan Lambert：……如果你有教师模型和中间模型阶段，你就可以从起点开始研究多教师策略蒸馏，并理解训练动态。

00:30:57 Finbarr Timbers：是的。

00:30:57 Nathan Lambert：这正是Oldo想要做的事情。我们只是还没有将我们的方法扩展到这个程度。

00:31:03 Finbarr Timbers：是的，完全正确。

00:31:04 Nathan Lambert：所以我会继续鼓励NVIDIA这么做。

00:31:07 Finbarr Timbers：那会很棒。NVIDIA——

00:31:08 Nathan Lambert：我认为——

00:31:08 Finbarr Timbers：……听一下。

00:31:10 Nathan Lambert：他们，他们确实会听。另一方面，2026年发布的一系列模型并没有采用这种多教师策略蒸馏的方法，而且它们使用的教师模型数量也少得多。我认为，微软的模型，我这样说并不是贬低，因为组建一个新团队确实很难，他们选择了更简单的方法来尝试构建一个稳固的模型，他们结合了三个更通用的专家模型，通过SFT进行训练，然后进行更长的强化学习训练。所以它看起来很像DeepSeeker one，但我猜测他们接下来会制作更细粒度的教师模型，并尝试是否需要转向策略蒸馏。

00:31:48 Finbarr Timbers：是的。我认为，在我们其中一个群聊中，你曾把MAI思考模型描述为一种保守的配方。我认为这是一个非常好的描述。因为他们，这个团队提出了这种保守的配方，然后我认为他们非常出色地执行了它。因为我认为，如果你试图一次做太多改变，配方很容易在自身的复杂性下崩溃，而我在职业生涯中见过很多次这种情况。

试图做出太多改变，结果往往会适得其反。因此，我认为他们在这一点上做出了一个非常好的选择。不过，我不太清楚（可能你看过一些相关论文，而我还没看过），我不太确定通过轨迹蒸馏进行的监督微调（SFT）效果如何，或者在线策略蒸馏相比轨迹蒸馏的SFT到底能带来多大的提升。

00:32:41 Nathan Lambert：是的。那最终性能的相对差距有多大呢？

00:32:45 Finbarr Timbers：是的。

00:32:45 Nathan Lambert：Nemotron Ultra论文中有一张表格，显示了在线策略蒸馏相对于教师模型的进展程度，同时还列出了起始点。我想这可能是一种实现方式。在这里，我可以直接展示出来。让我切换一下。

00:33:00 Finbarr Timbers：哦，当然可以。

00:33:04 Nathan Lambert：我之前打开了这个页面，不过是在另一个标签页中。好的，这就是这篇论文。第27页就是我刚才读的那段内容，同时还包含了一张类似的表格——

00:33:17 Finbarr Timbers：哦，真有趣。

00:33:18 Nathan Lambert：……这是一张非常棒的表格。我之前花了不少时间研究它。简单来说，这张表格显示了在通用模型的各个基准测试中，经过SFT后达到的水平——

00:33:24 Finbarr Timbers：哇。

00:33:24 Nathan Lambert：……然后我认为……这里显示的是对RLVR学生模型的专项学生模型恢复的增益。我需要确认一下……好的，这里表示的是初始学生模型的检查点，其中RLVR表示初始学生检查点，然后是多教师在线策略蒸馏的检查点。我不太确定这个SFT列到底代表什么，但你可以看到教师模型相对于在线策略蒸馏的位置。我认为这是目前我们所能获得的关于相对性能提升的最接近的信息。

00:33:59 Finbarr Timbers：是的，这真的很有趣。因为DeepSeek，我忘了是哪一个，可能是V3.2论文中声称，或者其实是R1论文中声称，你可以在通用阶段进行操作，从而捕获模型的性能。但事实上，这似乎并不成立。然后，你进行领域特定的蒸馏，再在上面进行通用阶段，就能恢复原始性能。但在这里似乎并非如此。比如，差距可能不是特别大，但大多数时候还是存在相当大的差距，即使这个差距不算特别大。这真的很有趣。

00:34:42 Nathan Lambert：是的，我希望这张表格和文字能更清晰一些。我几乎无法完全理解它。比如，RLVR表示初始学生检查点，而OPD表示第一次和第二次迭代后的检查点。那在线策略蒸馏开始时使用的检查点是什么？

00:35:01 Finbarr Timbers：我认为是RLVR，所以他们先进行通用SFT阶段，然后进行一个RLVR阶段，覆盖非教师模型的、没有专用模型的领域。然后他们再进行MOPD。

00:35:15 Nathan Lambert：是的。然后这与恢复率相符，恢复率是最终模型减去RLVR，也就是OPD相对于教师模型减去RLVR的增益，也就是你仍需要覆盖的增益。

00:35:31 Finbarr Timbers: 是的。

00:35:32 Nathan Lambert: 以及，比如老师可能给你带来哪些好处。所以需要更多这样的研究。我很高兴看到一些相关成果已经发表出来。我准备切换回之前的话题。

00:35:43 Finbarr Timbers: 是的。我发现 Nemotron 论文和 MAI 思考论文中一个有趣的地方是，它们并没有过多讨论一些在其他论文中显示出较强效果的详细训练后决策。比如，我记得是在 GLM 五中提到的，他们进行了难度课程和难度筛选阶段。

00:36:11 Nathan Lambert: 是的。

00:36:12 Finbarr Timbers: 这些内容在其他论文中并没有被深入讨论。它们只是说，他们没有，我记得 QEM 2.5 使用了温度参数。这有点好笑。所以 QEM 2.5 和 GLM 五都有温度调度，而且它们声称的正好相反。其中一个说你必须从高温度开始，然后降低；另一个说你必须从低温度开始，然后升高。我不知道到底哪种更合适。然后，你不会在其他一些论文中看到这样的讨论，我觉得这挺有意思的。

00:36:40 Nathan Lambert: 是的。我认为中国的实验室更愿意分享非常详细的、具体的技术细节。NVIDIA 的论文基本上就是一份方法列表，用来创建教师模型或类似的东西。

00:36:51 Finbarr Timbers: 是的。

00:36:51 Nathan Lambert: ...或者创建领域特定的教师模型，这很有用，但我觉得，这不像一篇有趣的读物。他们列出了15页不同领域的信息，我就会想，“好吧，我不需要这些。”比如 KBK 2.5 和 GLM 5 实际上有着更相似的配方，而且这些配方也更简单。你先创建一个 SFT 阶段，然后进行 RL。RL 可能是分阶段进行的。没有这种基于策略的蒸馏。他们对专家数量和专家领域也没有太多讨论。我认为，你必须对这些信息持保留态度，他们如何选择呈现信息的方式对这一点影响很大。也许实际上它们在现实中更接近，只是没有以某种方式描述出来。

00:37:44 Finbarr Timbers: 我认为另一个有趣的地方是，你看到中国实验室似乎都朝着稀疏注意力收敛，而我们没有看到，比如美国的实验室，至少 NVIDIA 和 AI2 看起来更倾向于混合注意力。比如，NVIDIA 的 Nemotron Ultra 使用了 Mamba 注意力，而我们看到 DeepSeek 使用稀疏注意力，还有 Mimo，即 MSA，不管它代表什么，Mimo 稀疏注意力。我认为这是一个有趣的分歧。

00:38:20 Nathan Lambert: 是的。我不是合适的人选，但我同意。

00:38:23 Finbarr Timbers: [笑]

00:38:23 Nathan Lambert: 就像我经常会被问到类似的问题，比如“中国的实验室是不是更高效？”我通常会说，“除非我每周花二十个小时去了解你模型的具体细节，否则我很难给你建议。”因为，如果我不了解模型和训练后处理过程的复杂性，就很难给出一个简单的“做X”这样的建议。这使得从透明度的角度来看，事情变得有些困难。即使信息非常详细，要对其进行修改和研究仍然非常困难。

00:38:42 Finbarr Timbers: 是的

00:38:42 Nathan Lambert: 比如，如果你让GPT模型提高1%的效率，你就能获得巨额利润。我认为这可能是一种更有效的市场机制，但—

00:38:53 Finbarr Timbers: 然后—

00:38:53 Nathan Lambert: 中国的实验室—

00:38:54 Finbarr Timbers: 你知道—

00:38:54 Nathan Lambert: 是的

00:38:55 Finbarr Timbers: …如果你让ChatGPT的运行更高效，Sam Altman可以说，“嘿，这里有一大堆股票。”所以是的。

00:39:02 Nathan Lambert: 是的。不过—

00:39:03 Finbarr Timbers: 嗯

00:39:03 Nathan Lambert: …中国的实验室确实做了很多出色的研究。

00:39:05 Finbarr Timbers: 完全正确。

00:39:05 Nathan Lambert: 我只是觉得这有点不同。好吧，我们可以进入更开放的话题。

00:39:12 Finbarr Timbers: 当然。

00:39:12 Nathan Lambert: 我认为我们这里有很多文档…我们这里有一些东西。我确信还会有更多内容出现。你如何看待开源模型？因为我觉得，似乎并没有一个明确的市场，或者说，我认为提供某种服务的商业潜力很大。实际上，这一点并不十分明确。我们已经看到很多公司提供强化学习微调服务，也就是所谓的强化学习即服务。我们看到很多公司尝试提供微调即服务，但没有一家真正取得成功。我想OpenAI已经开始关闭他们的强化学习微调服务了，他们可能也在关闭他们的微调服务。不过我可能搞错了。

00:45:51 Nathan Lambert: 好吧，Cursor在他们的实际训练运行中使用了Fireworks，我不太清楚所有细节，但Cursor做了一些事情，比如快速权重迁移，或者Fireworks做了—

00:46:01 Finbarr Timbers: 是的

00:46:01 Nathan Lambert: …快速权重迁移和其他一些方法，使他们能够非常有效地扩展他们的强化学习推理计算。这是其中一种类型。我不确定这种商业模式的长尾有多长，但我也认为Tinker的商业模式比大多数人预期的要好。它确实赚了一些钱。我认为在商业层级中，卖算力并不是最好的商业模式。

00:46:23 Finbarr Timbers: 是的。

00:46:23 Nathan Lambert: 卖推理服务，是一个很好的商业模式。而像Tinker这样的API，如果你无法将其转化为卖token，那它就介于两者之间，它们可以从中获得比仅仅卖算力稍高一些的利润率。显然，他们通过以比客户更低的价格获得算力，从而获得利润—

00:46:43 Finbarr Timbers: 是的

00:46:43 Nathan Lambert: …而这就是他们所获取利润的一部分。但我认为这不会像推理那样好，所以对他们来说，让这些微调 API 与推理业务很好地结合在一起，某种程度上是关乎生存的问题。

00:46:56 Finbarr Timbers: 是的。

00:46:56 Nathan Lambert: 因为这样一来，你就会在某种程度上被锁定在使用我们的基础设施来训练模型。你实际上可以拥有模型的权重，但训练动态与推理之间的不匹配是完美的，因为你正是在我们的推理引擎上进行训练，从而可以从中得到你想要的结果。

00:47:11 Finbarr Timbers: 是的。这在利用率方面也有很大帮助，因为你可以利用它。你可以将这种利用率分摊给很多客户。我认为这很有道理。我认为这可能对很多用户来说是一个更好的模型。比如，我想到学术用户，这可能更有意义。或者，如果你现在正在建立一个新的、嗯、后训练实验室，比如我知道一些人正在这么做，我觉得从 Tinker API 这样的东西开始可能更有意义，然后在某个时候，如果你想抓住这部分利润，也许你可以尝试做一些更定制的事情。但如果你能使用这样的东西，那很好，而且经济上更加可持续。或者，你知道，这对你来说比去 CoreWeave 或者 Serv scale 说，“嘿，我需要 10,000 个连接的 DB200”，要好得多。这是一件非常昂贵的事情，特别是如果你不能一直运行它们的话。

00:48:14 Nathan Lambert: 是的。在问你一些更一般性的问题之前，你还有其他关于后训练的激烈观点吗？

00:48:22 Finbarr Timbers: 嗯，我一般对某件事很感兴趣，但我觉得我并不是谈论这件事的合适人选。我很想和一个资本分配者谈谈，比如一个决定在哪里投资计算资源或在哪里雇佣团队成员的人。因为我想知道，那些在预训练和后训练之间分配资源的高层决策是如何做出的。因为，总的来说，我看到的趋势是，很多论文中更关注其中一方面。比如，我觉得……所以，这对我来说是一个有趣的问题，就是那些做这个决策的人，他们是如何做这个决策的，以及他们是如何思考这个问题的。

00:49:10 Nathan Lambert: 是的。这就像从实验室中做出的最难的决策之一。我以前花时间试图让他们分享更多，但我认为这是一个非常敏感的决策，因为这关系到他们如何看待进步的来源。他们根据他们认为进步最大的地方以及投资回报率来分配计算资源。所以如果你去 Anthropic，他们说，“这里是我们百分比的分布”，那你就知道，这就是实验室看到他们的赌注和/或他们认为自己薄弱的地方。

这就像你在某个领域投入更多计算资源，以取得进展，而我认为这正是目前很多开放研究显得枯燥的原因。那些获得计算资源的人，作为学者和研究人员，更容易取得成功，这对世界来说是一个糟糕的平衡状态，但现实上确实如此。我，我，我不知道该如何改变这一点。我想问问你，你对人们争相赚钱、在“梯子被抽走”之前加入实验室的热潮有什么看法？在面临有意义的机会成本时，人们在职业生涯中应该以什么为目标？

00:50:18 Finbarr Timbers：是的。我觉得这其实非常及时。嗯，是的，我认为这确实非常重要，值得讨论。我的意思是，始终值得思考你所做的事情和你所花时间是否具有普遍价值，还是仅仅是一种短期的利用行为，就像在强化学习中“探索”与“利用”的权衡那样。在我的职业生涯中，我经常看到这样一种现象：那些支付最高的地方，通常也是你从事最有趣工作的地点。比如，如果你打算去 OpenAI、Anthropic 或 Frontier Lab 工作，这些地方不仅支付高额的薪水，还拥有大量资源，因此你将赚到很多钱，并学到很多东西。

所以，我认为值得思考一下，你所面对的这个机会，到底是你真正想要的，还是像 2021 年或 2022 年那样的机会，当时你可能在 DeepMind 工作，而那时你可能会想：“我应该留在 DeepMind，尽管 DeepMind 的薪水远不如加密货币行业。”或者，“我应该去加密货币行业工作，尝试铸造 NFT 或者其他事情？”我认为那样做是一个错误，但尝试弄清楚你是否能够从事有趣的工作是非常重要的，同时也要弄清楚你是否能够推动科学的发展。如果你所做的事情只是去数据供应商那里说：“我需要大量数据来做某事。”然后他们给你一堆数据，你训练一个模型，然后说它好或不好，我觉得这并不那么有趣，而且你也不会学到很多，尽管这可能推动模型的进展。

我认为，如果你能够更加专注于科学，并得出更多的科学结论，这对你的长期职业发展会更好。我认为，这就是像 AI2 这样的地方和其他学术研究实验室所能做到的，比如 Marin 正在非常出色地做这件事。我认为，正是在这些地方，你可以产生巨大的影响，因为它们没有足够的预算去购买大量数据，因此这种杠杆作用对他们来说并不开放。因此，他们必须专注于科学和推动创新，而你可以在像 Almix 这样的论文中看到这一点，我认为这是一篇非常优秀的科学论文，而且我认为它在很大程度上推动了该领域的最新进展。

00:52:32 Nathan Lambert: 是的。不，这主要是基于我曾多次前往湾区的经历，每次去的时候，我都会觉得，“天哪，这里到底发生了什么？”就像有很多资历尚浅的人对他们的机会成本感到极大的焦虑。我们两个人都不在湾区，所以我感觉——

00:52:46 Finbarr Timbers: 不

00:52:46 Nathan Lambert: ……某种程度上与这种现象有些距离，这让我有更多的时间停下来思考，到底应该优化什么？作为一位已经有所成就的人，我很容易说出这样的话，但我认为很多人其实都有机会，只要他们确信某件事，就去尝试去做，而不是一味地跟随他人进入那些已有的实验室，比如 Neo 实验室。我很少听到那些在这些地方以初级身份加入的人最终承担了非常重要的责任。他们可能参与了有意义的项目，或者与一群很酷的人一起工作，但我很少听到有人表示，“哇，我现在正在做最有杠杆效应的事情，而且参与了最有趣的事情。”

00:53:30 Finbarr Timbers: 嗯，我觉得，以我的经历来说，这有点讽刺。我的职业生涯更多偏向于机会主义。不过，你知道吗，我两次都在一些组织中工作，这些组织里，我参与了一些项目。比如，在 DeepMind，我曾是阿尔伯塔办公室的一员，当时 DeepMind 从阿尔伯塔大学收购了计算机扑克研究小组。这是一群非常投入于计算博弈论和扑克算法的人。他们对这个领域非常热衷，以至于他们成为了该领域领先的两个实验室之一，因为他们在这个领域非常强大，所以 DeepMind 来收购了他们，他们也都加入了 DeepMind，并且从这次收购中获得了不错的发展。后来，我加入他们，是因为我对与他们合作、研究博弈论等事情很感兴趣。但你知道，正是这群人坚信他们所做的事情非常重要，结果对他们来说非常成功。同样，在 AI2，也有许多人对自然语言处理研究非常感兴趣，甚至在语言模型出现之前就已经如此。比如 Kyle 和 Dirk，他们都在 AI2 工作了将近十年。

他们在那里有很长的任期，后来发展得非常好，之后他们也获得了许多强有力的机会。我认为，其中的一致主题是，如果你坚信你正在做的事情是重要且有趣的，那么追随这个方向并努力在这个领域变得强大，这并不是一个错误。

00:55:15 Nathan Lambert: 是的。我主要认为，对世界来说，拥有更多样化的解决方案是好事。

00:55:19 Finbarr Timbers: 是的。

00:55:19 Nathan Lambert：如果这些实验室真的能够做到多样化的事情，那么看看它们实际上会产出什么将会很有趣。我个人的想法是，它们现在规模如此之大，以至于大多数最终都不得不做一些相对类似的事情，即——

00:55:33 Finbarr Timbers：是的

00:55:34 Nathan Lambert：……这很困难，但它们需要继续承担风险，它们实际上需要冒着自己200亿美元估值的风险，做一些有趣的事情，而这些事情不会被OpenAI或Anthropic的副项目轻易压制。

00:55:48 Finbarr Timbers：是的，完全正确。我认为这很困难，因为当你在融资时，当你有这些巨大的种子轮融资，你融资2亿美元、10亿美元或其他金额时，你必须很快展示成果，才能——

00:56:01 Nathan Lambert：是的

00:56:01 Finbarr Timbers：……才能在那基础上继续增长。

00:56:04 Nathan Lambert：是的。所以这是一场未完待续的对话。

00:56:11 Nathan Lambert：最后还有什么要说的吗？如果我们的对话没有更多要补充的内容，我就不用再继续了。

00:56:16 Finbarr Timbers：不，我认为这次对话已经很好了。我觉得这次对话非常棒，有机会重新联系并讨论这些话题，真的很棒。你知道，我一直在阅读这些论文，思考各种不同的方法，所以很高兴能和你聊聊，并把这些想法分享出去。谢谢你邀请我。

00:56:31 Nathan Lambert：是的，谢谢你回来。我们很快会再聊。

00:56:33 Finbarr Timbers：听起来不错。

#### 关于这一集的讨论

Restacks

关于人工智能最新进展的音频文章，以及对领域内领先科学家的采访。打破炒作，了解背后的原理，并讲述故事。

收听平台

Substack App

Apple Podcasts

Spotify

YouTube

Overcast

Pocket Casts

RSS Feed

出现在这一集