---
title: "10万引普林斯顿刘壮最新访谈：架构没那么重要，数据才是王道"
source_name: "量子位"
original_url: "https://www.qbitai.com/2026/04/410791.html"
canonical_url: "https://www.traeai.com/articles/3d94c74b-360c-4e0d-8802-e7cd9b479810"
content_type: "article"
language: "中文"
score: 9
tags: ["AI","深度学习","数据科学","架构设计"]
published_at: "2026-04-29T04:20:49+00:00"
created_at: "2026-04-29T08:27:54.732086+00:00"
---

# 10万引普林斯顿刘壮最新访谈：架构没那么重要，数据才是王道

Canonical URL: https://www.traeai.com/articles/3d94c74b-360c-4e0d-8802-e7cd9b479810
Original source: https://www.qbitai.com/2026/04/410791.html

## Summary

普林斯顿助理教授刘壮在访谈中指出，AI进步的核心驱动力是数据和规模，而非架构创新，同时强调了记忆和数据多样性的重要性。

## Key Takeaways

- 架构选择不如数据和规模重要，细节优化可让不同架构达到类似性能。
- 现有数据集缺乏真正的多样性，视觉数据的信息密度仍是瓶颈。
- 当前AI的记忆能力不足，限制了智能体的长期实用性。

## Content

Title: 10万引普林斯顿刘壮最新访谈：架构没那么重要，数据才是王道

URL Source: http://www.qbitai.com/2026/04/410791.html

Markdown Content:
< img id="wx_img" src="https://www.qbitai.com/wp-content/uploads/imgs/qbitai-logo-1.png" width="400" height="400">

2026-04-29 12:20:49 来源：[量子位](https://www.qbitai.com/)

记忆才是AI最大瓶颈，智能体只是权宜之计

听雨 发自 凹非寺

量子位 | 公众号 QbitAI

引用量超过10万次，清华姚班校友，ConvNeXt、ImageBind、《无归一化的Transformer》……这些论文的作者——

**普林斯顿大学**助理教授**刘壮**，在学术圈是一个颇为特殊的存在——他的每一篇论文几乎都在质疑某个“理所当然”的假设。

架构真的重要吗？数据集真的足够多样吗？归一化层是必需的吗？大语言模型有世界模型吗？AI智能体能替代博士生吗？

![Image 1](https://i.qbitai.com/wp-content/uploads/2026/04/c1a4a1801d6ef084045b7554fdaf8165.png)

在《信息瓶颈》的最新播客中，刘壮和主持人Ravid Shwartz-Ziv、Allen Roush展开了长达一个多小时的对谈，解答了这些问题。

刘壮给出了几个核心判断 _（太长不看版）_：

**1、架构选什么，没你想的重要**。

只要把残差连接、自注意力、归一化层、线性层这四大基础做对，不管用ConvNet还是Transformer，最终都会落在同一条性能曲线上。

过去十年真正推动AI进步的，是更大程度上是**数据规模和计算规模**，而不只是架构创新。

**2、数据集远没有我们以为的多样**。

他和何恺明做了一个实验：训练神经网络来判断一张图片来自哪个数据集。

结果在三个号称“多样化”的亿级数据集上，准确率高达80% 以上——

说明这些数据集在模型眼里仍然泾渭分明，距离“无偏的全球分布”还差得远。

**3、大语言模型有世界模型，但只在语言空间里**。

LLM在高层次事件推理上表现出色，但视觉空间的精细世界模型我们还没有——

根本原因是**视觉数据的信息密度太高，现有算力还处理不了**。

而且对于超过一半的工作场景 _（尤其是数字化的白领工作）_，根本不需要视觉世界模型。

**4、记忆才是当前最大的瓶颈，不是能力**。

现有模型的推理能力已经足够强，真正缺的是稳定的长期记忆。

我们需要那么多智能体协作，恰恰是因为一个智能体记不住所有事情。

![Image 2](https://i.qbitai.com/wp-content/uploads/2026/04/f3dcdb91844005f4ffc4af09351c1354.png)

**5、自主科研还没到位，AI替代不了研究生**。

他亲自测试过让Claude Code在一两天内独立完成一个研究项目。

结论是：低层次任务还行，但提出有意思的问题、设计实验、保持方向感——这些还做不到。

整个访谈有一条隐藏的主线：我们在AI领域里奉为圭臬的很多东西，其实是历史偶然。

而真正决定成败的，往往是那些更朴素、更无聊的因素——**数据、规模、记忆**。

以下是量子位梳理的刘壮最新访谈，为便于理解，有部分删减和润色，并在必要的地方添加了编者注，各位enjoy~

架构没那么重要，但细节决定一切

**编者注**：2020年前后，计算机视觉领域掀起了一场“Transformer热”。

2020年Google Brain提出的视觉Transformer（ViT）横空出世，整个视觉社区迅速向它迁移，传统的卷积神经网络（ConvNet）被普遍认为已经落伍。

2022年，刘壮团队发表ConvNeXt，把经典的 ResNet 架构一步步“现代化”，最终让它在性能上追平了当时最强的视觉Transformer——结论令人意外：两者的差距并非来自架构本身，而是来自训练方案的不同。

**Ravid**：今天我们会聊聊你的一些论文。总体上，我们要探讨当今AI中真正重要的组成部分是什么。你的研究成果很多，我想我们可以从“哪些组件最关键”开始。

几年前，你发表了一篇关于**“面向2020年代的卷积神经网络”**的论文。你能先介绍一下这篇论文，然后我们再来拆解当前AI系统的各个组成部分吗？

![Image 3](https://i.qbitai.com/wp-content/uploads/2026/04/d18400a89b38cdb692e0950eb0a8ecbb.png)

**刘壮**：嗯，当然。那是一段非常有趣的经历。

这篇论文我们是在2021年写的，那时候Transformer刚刚通过视觉Transformer的引入进入了计算机视觉领域，整个视觉社区都在从传统的卷积网络切换到视觉Transformer，性能也越来越好。

在这项工作中，我们想研究：**ConvNet是否真的已经丧失了竞争力？**

是否有可能通过系统性地控制所有设计细节，来验证ConvNet能否被现代化、达到当时视觉Transformer的水平？

我们想搞清楚，Transformer和ConvNet之间看似存在的性能差距，究竟是源于架构本质的不同——比如用自注意力还是卷积——还是源于一些看似微小的设计细节。

最终我们发现答案是后者。

经过大量对ConvNet各组件的研究，我们最终让模型在多种任务上达到了当时最强视觉 Transformer 的水平。

这说明，无论选择ConvNet还是视觉Transformer，只要把所有细节都做对，就能在视觉任务上达到同等的前沿性能。

**Ravid**：你现在还相信这一点吗？你还认为**架构其实并不重要吗**？

**刘壮**：我不会这么说——**总体上我倾向于认同，但我不会说架构不重要**。

我的意思是，只要你把所有细节都做对，只要你对设计空间探索得足够充分，就会收敛到一个类似“帕累托前沿”的点——在精度和效率之间取得最佳平衡。

要突破这条前沿线是非常困难的。

![Image 4](https://i.qbitai.com/wp-content/uploads/2026/04/7c9dd3b8c296394b65a4307c7c89b4f5.png)

我觉得过去这么多年，除了几年前已经成熟的那些架构之外，真正被广泛采用的架构创新其实并不多。

不过这个探索过程本身非常有趣。

最近，一些开源模型公司，比如Kimi、DeepSeek，还在不断折腾架构，比如怎么改残差连接、怎么连接不同层，我非常尊重这类工作。

事实上，学术界现在架构研究没那么活跃，部分原因是我们负担不起用足够说服力的规模来验证这些效果所需的计算资源。

但我自己还是会用学校的资源去尝试。现在有了Claude Code的帮助，我可以自己动手写代码去探索，这非常有趣。

从实用角度来看，我认为**我们用什么数据训练模型，比选择什么架构更重要**——前提是输入输出接口不变。

架构本质上是我们参数化函数近似器的方式，这是神经网络或深度学习最基本的功能。

只要你把几件事做对，比如用残差连接、用自注意力或其他合理的机制、在合适的位置放激活函数和前馈层，你就能非常接近甚至达到性能与效率的前沿曲线。

从实际应用的角度，我认为更重要的是：这个模型用什么数据训练的？它怎么处理上下文和记忆？

在上下文和记忆这方面，确实有一些架构工作在解决这个问题。

我觉得这才是让AI再上一个台阶最迫切需要解决的问题。

**Allen**：根据我的理解，你们是把ResNet逐步往类似Swin Transformer的设计方向现代化，最终得到一个能与 Transformer强力竞争的ConvNet。

在那篇论文里，哪一个消融实验最让你对“Transformer的优势究竟从何而来”改变了看法？

**编者注**：消融实验（ablation study）是深度学习研究中的常用方法，指的是逐一去掉或改变模型中的某个组件，观察性能如何变化，以此判断每个组件的贡献大小。

**刘壮**：哪一个？我觉得是每一个。

你看那张图，没有任何单一改动能大幅拉升性能。有些改动比其他的更有效，但没有哪一个能改变一切。

**![Image 5](https://i.qbitai.com/wp-content/uploads/2026/04/206bceb650bfdc95bf8bdb6dd92f47d2.png)△**ConvNeXt论文的Figure 2，展示了ResNet现代化的完整过程和每一步对应的性能变化

也许激活函数的使用，以及减少归一化层的数量，是让我比较感兴趣、也有明显性能提升的一个点。

但真正起作用的是**把所有改动叠加在一起**。

这些看似微小的组件，当我们把它们组合起来的时候，产生的性能差距，是那种通常只有把卷积换成自注意力这种大改动才能带来的效果。

所以我认为，这篇论文最大的启示是：**这些小细节组合在一起，比那些看起来很核心的网络组件影响更大**。

**Ravid**：对我来说，感觉我们是在大量尝试各种东西，有些起效了，模型就变好了。然后回过头来，我们才开始真正理解哪些组件是关键的。

你觉得我们是需要先有突破，再回头理解细节？还是说我们只需要反复试错，不需要明确的方向？

**刘壮**：Transformer对整个社区来说绝对是一个福音，把Transformer引入计算机视觉这件事，意义重大。

是那几年里绝对是最重要的突破之一。

但视觉Transformer还有另一个好处，就是它实现了文本和图像表示的统一。

Transformer的使用对后来的发展非常关键，比如LLaVA，这类多模态框架——用视觉编码器把图像编码成token，然后和文本 token 一起输入到下游的大语言模型里。

这是现在很多多模态模型的基本框架。

**编者注**：LLaVA（Large Language and Vision Assistant）是2023年提出的一种多模态大语言模型框架，将图像编码器（通常是CLIP）和大语言模型（如LLaMA）连接起来，让模型能同时理解图像和文字。

这一框架成为后来GPT-4V、Gemini等多模态模型的基础思路。

回到我们的研究，这种对细节的深入分析，我觉得更像是一堂课。它改变了我自己的认知，也改变了很多人的认知，这让我更引以为傲。

当然人们还是可以继续用ConvNet，它也有自己的优势，尤其是在纯视觉任务里：部署方便，比较容易理解，也因为操作是局部的，所以对更高分辨率和长序列有更好的支持。

两种架构只是在不同地方各有所长。

**Ravid**：好，架构不那么重要——你还有一篇更近的论文，证明了归一化层也不那么重要，对吗？

基本上可以用双曲正切激活函数来取代归一化层，只需要一些调整，但效果一样好。

那你觉得**真正重要的核心组件是什么**？而且为什么好的AI模型只是在最近五年才出现，而不是十年前？

![Image 6](https://i.qbitai.com/wp-content/uploads/2026/04/67b6d2e16d1c367a258cd99054475504.png)

**编者注**：这里指的是2025年刘壮与Yann LeCun等人合作发表的论文**《Transformers Without Normalization》**。

归一化层（Normalization Layer）是现代神经网络中几乎无处不在的组件，最常见的是LayerNorm，它的作用是稳定训练过程、加速收敛。

这篇论文用一种称为“动态双曲正切（dynamic tanh）”的激活函数替换了LayerNorm，在多种设置下仍能与标准Transformer持平甚至更好。

**刘壮**：这是个好问题。

首先，Transformer大约是十年前提出来的，九年前吧。

所以在那之后很长一段时间里，我们基本还是沿用类似的基本框架，只有一些小改动，比如激活层、专家混合 _（不是每次都用）_、局部注意力、滑动窗口注意力等，但核心框架和九年前论文刚出来时基本一样。

所以我的答案是：**数据，以及训练时使用的计算规模**。

这就像GPT-1到GPT-3的经典故事——基本上是同一个模型，用更多计算量、更多数据、更多样化的数据、更大规模的互联网数据来训练，就得到了我们现在看到的这些强大能力。

所以我会把这归因于**数据**，其次是**算力**。

我认为数据是主要因素，因为现在大多数模型训练的epoch数都不超过一个。

![Image 7](https://i.qbitai.com/wp-content/uploads/2026/04/7bda785e2c31266f6aa6756e977113de.png)

**编者注**：Epoch指的是模型把整个训练数据集完整过一遍的次数。

“不超过一个 epoch”意味着模型甚至没有把所有数据看第二遍——这说明数据的总量和多样性，比反复训练同一批数据更关键。

**Allen**：我注意到你的研究有一个贯穿始终的论点，就是这个领域常常把架构和训练方案混为一谈。

如果你要为今天的架构论文设定规则，在有人声称某种架构选择有价值之前，你会要求哪些控制条件？

**刘壮**：好，在理想世界里，我们有无限计算资源，对吧？

首先，我会要求在一定规模上验证效果，不一定是前沿模型，但至少要在**70亿、300亿参数**这个量级。

规模对工业界来说很重要，只有在这个规模上，大家才真的会相信你的改动有效。当然，这并不总是可行的。

其次，如果你要在较小规模上研究架构变化，我会要求首先做**超参数搜索**。

你不能只在一组超参数下证明新架构比旧架构好，尤其是当这组超参数是专门为这个新模型调过的。

每个模型都应该在各自最优的超参数下进行比较，最重要的超参数是学习率、衰减、优化器类型。

让我很烦的一件事是，有人甚至不去调基线模型的学习率，只调自己方法的，然后就声称有效——这是导致很多”结果无法泛化”的最常见的问题所在。

第三，我会要求这个想法或方法在不止一个数据集上得到验证，最好是在一个合理规模的数据集上。

ImageNet今天仍然适用，但理想情况下，还应该在一些小规模的大语言模型上验证，比如在FineWeb上训练。

我非常赞成**在多样的数据集上验证想法，至少要在领域内常用的数据集上**。这就是我会提的几个标准。

**编者注**：FineWeb是Hugging Face于2024年发布的大规模网页文本数据集，经过严格清洗，常被用作语言模型预训练的基准数据集。

**Ravid**：如果一个想法是真正好的，它是否应该在不同领域、不同数据集、不同场景下都有效？

还是说有些非常好的想法只适用于非常特定的场景？

**刘壮**：我认为两种都同样有价值。

在第二种情况下，我希望研究者能清楚地说明，这个方法在什么特定场景下更好，仍然应该在不止一个数据集上验证。

如果你声称你的模型在长上下文音频上效果更好，你仍然可以在这个方向上用多个数据集测试。

同时要解释清楚，为什么这个方法在这个特定领域好，为什么在其他领域不好，然后从这里出发，去解决那些弱点。

这就是研究的价值所在——你不需要第一步就全面成功，那固然很好，但不是必须的。

数据集没你想的那么“多样”

**编者注**：这部分讨论应指刘壮与何恺明合作发表的论文**《A Decade’s Battle on Dataset Bias: Are We There Yet?》**，研究动机是：我们一直以为主流视觉数据集越来越多样、越来越全面，但真的是这样吗？

![Image 8](https://i.qbitai.com/wp-content/uploads/2026/04/6be910996a9dea73a85015770681b7b1.png)

**Ravid**：好，那我们来聊聊数据。你说数据是最重要的。具体是数据的哪些方面？我们先从你那篇关于“数据集偏差的几十年之争”的论文说起。你们的研究动机是什么？

**刘壮**：这篇论文主要聚焦在视觉领域。

多年来，人们一直在从越来越多样化的来源构建越来越大的数据集——从最初的MNIST，到CIFAR，再到ImageNet，再到互联网规模的 DataComp、Google 的 Conceptual Captions 等。

这些数据集看起来越来越多样，规模从几万张到十亿级别。大家很自然地会认为：我们已经收集了互联网上能拿到的所有东西，数据集应该足够了吧？

**编者注**：MNIST是手写数字识别数据集（约7万张图片），CIFAR是小图像分类数据集（约6万张），ImageNet是目前最权威的图像识别基准（约120万张），DataComp和Conceptual Captions则是十亿级别的互联网图文对数据集。

这条发展脉络代表了过去二十年视觉数据集规模的指数级扩张。

但在我们的初步实验里，我们发现这些数据集彼此之间其实差异极大。

我们是怎么衡量的呢？我们设计了一个非常“蠢”的实验——从深度学习训练的角度来看完全没有实际意义。

我们做的是：**给定三个很大的数据集，训练一个神经网络来判断一张图片来自哪个数据集**。

这不是什么实际问题，只是想猜测图片的来源，是个多分类问题。

结果发现，在这三个看似非常多样化的数据集上，模型仍然能以超过80%的准确率回答这个问题。

而随机猜测的准确率是33%，模型的准确率远远超过这个基线。

这意味着，在模型看来，这些数据集仍然非常不同，有非常清晰的线索让模型判断图片来自哪里。

当然，我们是在留出的验证集上做测试，不是在训练集上猜。

这促使我们反思：我们真的成功构建了一个大规模、全面覆盖的数据集了吗？什么样的数据才是终极目标？

这个“无偏的全球分布数据集”本身就很难定义，不同的人可能有不同的标准。

大语言模型成功的一个重要原因，是它不是领域专用的模型，它能做所有事。要做到这一点，一个普遍的假设是模型在训练时需要见过所有东西。

但从这个初步实验来看，我们显然还没有达到那个程度。

**Ravid**：那你觉得答案是什么？好的数据需要具备哪些属性——多样性、不确定性、避免冗余？

**刘壮**：是的，内容多样性、风格多样性……深度学习的一个大教训是：

**想让它擅长所有事，就要在所有事上训练它。**

![Image 9](https://i.qbitai.com/wp-content/uploads/2026/04/2729f25c078b3c611fbc09e9d0e8cd55.png)

但在当今的条件下，我们仍然面临权衡问题——算力有限，模型容量有限。

模型学到的不同能力之间可能会相互竞争，比如如果你想让模型在编程上更好，可能就需要牺牲一点它在心理咨询方面的能力，这只是举个例子。

如何配比训练数据，让每个我们希望模型擅长的领域都得到足够的表示？这是一个重要的设计问题。

在我们最近一个文字转图像的项目里，我们发现了一个出人意料的简单方案——不是最优的，但足够简单——就是**把你关心的所有领域大致等权重地混合**。

你不会希望“如何理发”和“如何编程”得到同等权重，因为它们对大多数人的重要程度差别很大，你当然希望模型在编程上见过更多数据。

但如果你把“理发”扩展为“日常生活技能”这个层面，把它和另一个同等重要程度的领域放在一起，然后从每个领域收集高质量数据并等权重混合，这种做法在很多其他项目里效果都不错。

**Ravid**：你觉得这就是未来的方向吗？就是把各种来源简单地混合在一起？

**刘壮**：对于通用模型来说，是的。

如果你只是想让模型在所有事情上都还不错，而不是在某个特定困难任务上特别拔尖，那我认为**数据覆盖是王道**。

Ilya Sutskever有句名言，大意是**只要你有一个大模型，收集了足够多的数据，模型就一定能训好**。

我认为这在现代深度学习里仍然适用。

当面对用户时，想让模型在某个任务上表现好，就在训练集里放足够多这方面的数据，这是最合理的解决方案。

视觉是桥梁，但语言先点燃了这把火

**编者注**：这部分涉及两篇论文。一是2023年Meta发表的**ImageBind**，由刘壮参与，将图像、文本、音频、深度、热成像、IMU运动传感器六种模态对齐到同一个嵌入空间。

二是同年发表的**《Eyes Wide Shut》**，揭示了 CLIP视觉编码器的系统性盲点。

CLIP是 OpenAI于2021年提出的图文对比学习模型，目前是绝大多数多模态大语言模型的视觉编码器基础。

**Allen**：**ImageBind**把六种模态对齐到同一个嵌入空间里。

你觉得这是在说明视觉模态本身的特殊地位，还是只是说明了视觉数据在大规模数据中碰巧有这样的角色？

![Image 10](https://i.qbitai.com/wp-content/uploads/2026/04/1df27d7bf551b40fda1156a5e65a1ee7.png)

**刘壮**：我觉得这篇论文一个很重要的信息是：**不同模态确实可以被嵌入在一起，这是现在多模态基础模型运作方式的基础**。

常见的做法是用编码器把每个模态对齐到语言模型的token表示。

ImageBind更专注于学习编码器本身，而不是把它们连接到大语言模型上。

另一个洞见是：**视觉是连接所有模态的天然桥梁**，因为视觉数据就像是我们人类的默认输入。

它经常和很多其他模态同时出现，比如音频——看YouTube视频时，音频和视觉数据自然地融合在一起，你可以用这个信号来对齐两者。

还有运动数据，也经常和图像或视觉数据同时出现。这揭示了视觉在我们日常感知中的根本性地位。

**Ravid**：但为什么最终能力上的大跃升是通过语言模型实现的？

我们有视觉好一段时间了，但没有看到AI在所有领域、所有公司里大规模普及。直到语言模型变强，人们才突然开始用 AI。

你觉得这只是巧合，还是语言本身有什么根本性的优势？

**刘壮**：是的，这是个被广泛讨论的话题。

我的理解是：**视觉本质上是吞吐量非常高的数据**——它流入我们感知系统的带宽远高于语言，**而我们还没有足够的算力来真正处理这些数据**。

![Image 11](https://i.qbitai.com/wp-content/uploads/2026/04/de75830c9be528405955c43f0ce7ec45.png)

想想看，就一帧图像，存储它所需的空间就远大于用语言描述这张图像——描述可能只需要几个字节，图像却需要几千字节，相差上千倍。

所以一张图片的信息量确实超过一千个词。

另外，我们也没有好的机制让模型在图像上做精细定位——在当前的多模态语言模型里，所有信息都已经编码在视觉 token 里了，模型没有办法回头去重新聚焦图像的某个区域。

如果视觉编码器质量不好，自回归模型对此毫无办法。

而语言处于一个低维得多的空间，每个词都有明确的含义——这有点像人类从自然界里做无监督学习。

我们在进化过程中筛选出了这些重要概念，把它们凝缩成词，每个词只需要几个字节的存储空间，而用图像来表示”杯子”这个概念，可能需要成千上万张图片。

处理这么大量信息所需的算力自然要高得多，我觉得我们目前还没有到那个程度。

**Allen**：好，然后是那篇我很喜欢标题的论文——**《Eyes Wide Shut》**，斯坦利·库布里克的最后一部电影。

你在论文里提出，很多多模态大语言模型的失败，都可以追溯到CLIP这样的视觉编码器以及CLIP的盲点。

能概括一下这篇论文吗？在你看来，这个瓶颈究竟有多少是视觉问题，又有多少是语言模型或对齐问题？

![Image 12](https://i.qbitai.com/wp-content/uploads/2026/04/c9305b7b46d312d6798ff273be3b2f62.png)

**刘壮**：我认为这在很大程度上是**视觉编码器的问题**。

正如我之前说的，**这些模型只会学训练时教它们学的东西**。如果训练时没有让模型面对你希望它擅长的任务类型，测试时它就不会好。

具体来说，CLIP训练的目标是让图像表示和它的文字描述对齐。而图像描述自然地更关注图像的内容——里面有什么物体，它们在做什么——**而不太会明确说明这些物体的位置**。

如果图中有一个人和一条狗，描述大概只会说“人和狗玩耍”，而不会说人在左边还是右边——这是我们人类描述图像时很自然的方式。

对人来说这没问题，我们不太在乎谁在左边。但如果你希望模型能够回答这类位置关系的问题，就需要在训练里用到这些。而这正是CLIP训练所忽略的。

结果我们得到一个被用作多模态语言模型视觉编码器的CLIP模型，它根本没被训练去处理这些任务。

这再次印证了我的观点：**想让模型擅长什么，就要在那件事上训练它**。

**Allen**：在《Eyes Wide Shut》那篇论文里，你建议把视觉特征和自监督特征混合来改善视觉定位。

如果同时优化语言对齐和细粒度视觉辨别，你认为多模态语言模型最理想的视觉编码器应该是什么样的？

**编者注**：自监督学习（self-supervised learning）是一种不需要人工标注的训练方式，模型通过预测图像的一部分、或者预测被遮挡的区域来学习视觉表示。

典型的方法有MAE（Masked Autoencoders）、DINO等，它们往往能学到比 CLIP 更细粒度的视觉特征。

刘壮：我现在心里想的解决方案就是两者都做。这两种是现在视觉预训练的两大主流范式。

我还想加一个——现在很多人在讨论世界模型——我会在视觉部分加入时间维度，这也会非常有帮助。

大语言模型有世界模型，但只在语言空间里

**编者注**：“大语言模型有没有世界模型”是近年来 AI 领域最激烈的争论之一。

Yann LeCun长期主张：现有大语言模型没有真正的世界模型，他力推一种基于能量的层次化架构来显式构建世界模型。

而另一些研究者（如Ilya Sutskever）则认为，足够大的语言模型在预测下一个token的过程中，已经隐式地学到了世界模型。

**刘壮在这里给出了他自己的第三种答案。**

**Ravid**：我们来聊聊世界模型。你对世界模型的定义是什么？

**刘壮**：对我来说，世界模型就是预测世界如何运作，根据你当前的状态来预测世界接下来会发生什么。

**Ravid**：这具体是什么意思？

比如几周前Stephane Mallat来这里声称大语言模型有世界模型，而之前Yann LeCun来这里说我们需要显式地构建世界模型，目前的大语言模型并没有。

你怎么看？你觉得我们能定义出一个标准，来判断哪些模型有世界模型、哪些没有？

**刘壮**：是的，我认为**大语言模型在语言空间里是有世界模型的**，这毫无疑问。

![Image 13](https://i.qbitai.com/wp-content/uploads/2026/04/65779d82ba14df35a2b33a9cd1906457.png)

语言是我们所接收的所有感知信号的更高层次的抽象，大语言模型在这个层面上有着相当好的世界模型。

我经常和ChatGPT讨论历史。几天前我让它想象一个假设场景：中国历史上某个事件里，我让ChatGPT想象如果那个失败的势力赢得了战争，历史会怎么变？

它给出的回答非常合理——把所有小事件串联起来，一切都讲得通，只是一些小概率的决策偏移，然后一切随之改变，像真实历史一样，完全有可能就是真实历史。

在这个意义上，我觉得没有哪个小说家或历史学家能超越它在这串事件中的逻辑推理水平。

所以**它们确实有一个很好的世界模型，只不过是在非常高的抽象层次上**。

当我们说“我们现在没有世界模型”，说的其实是**视觉空间的世界模型**——我们没法在像素空间里完整地恢复或模拟世界，这也是真的。

**我认为模型有没有世界模型，取决于你想对世界的哪个层次建模。**

如果你把世界的高层次事件视为一个自包含的世界，那我们通过语言模型确实有。

但如果你把每个像素、每个原始信号、每个物理信号，包括世界上每种物质的物理属性，都纳入考量，那我们确实还没有那个层次的精细化模型。

根本原因还是视觉数据的吞吐量太高，我们还没有足够的算力来完美地对它建模。

**Ravid**：那你觉得我们真的需要世界模型来解决 99% 的任务吗？

**刘壮**： 对于数字化工作，比如白领工作，我认为不需要视觉世界模型。

![Image 14](https://i.qbitai.com/wp-content/uploads/2026/04/0b9f1c018a0ab20dba096d3cfc2f30c6.png)

很多事情都在数字空间里运作，我最多需要模型能读取我的电脑屏幕，而屏幕内容可以被数字化或压缩，通常最多是一组图像，不是实时视频流，这相对容易。

我目前用Claude Code的瓶颈之一就是需要截屏，这个问题应该很快可以解决，因为这些模型可能很快就能以安全的方式访问我们的屏幕。

但对于体力劳动，比如建筑、驾驶、体力活动，我认为确实需要视觉模型，因为这类工作中的反馈是非常细粒度的。

还有理发——你想剪哪部分头发、剪多少，这是没法靠语言模型来完成的。

还有一些物理性的工作，比如外科手术。**我认为，真正需要视觉世界模型才能做好的工作，不会超过一半**。

记忆才是真正的瓶颈，智能体只是权宜之计

**编者注**：这部分话题涵盖了几个相互关联的议题：强化学习（RL）训练、Agent、持续学习，以及AI辅助科研的现状。

刘壮还提到了另一篇自己的论文**《Idiosyncrasies in Large Language Models》**（大语言模型中的特异性），该论文发现，不同大语言模型生成的文本存在可被识别的“指纹”，即便经过改写或翻译仍然保留。

**Ravid**：你怎么看强化学习？

现在所有实验室都在建自己的环境，想在编程或某些特定任务上做得更好，就搭一个专用环境，让模型在这个环境里训练，给它反馈和奖励。

你觉得这是未来的方向吗？

**刘壮**：是的，实际上我不确定每个实验室都这样做强化学习或监督微调是否真的可行。

我希望未来能有一套像预训练一样成熟的方法来做持续训练。可以是强化学习，也可以是情境工程、提示工程、智能体协作，这些都还是开放的。

也许还需要调整架构，让模型有更大的记忆、更长的上下文。

**持续学习**这件事，把通用模型适配到特定领域，我认为非常重要。

因为每个人在一生中会遇到不同的情境。你希望模型成为你的好助手，赋能你的生活和工作，你需要它记住大量上下文。

在这方面，人脑仍然远超模型——极大的记忆容量，快速学习，只需见一次就能记住一个事实，而且不会忘记。

![Image 15](https://i.qbitai.com/wp-content/uploads/2026/04/c7fc43123f5d37a14297c9e9c195a341.png)

你今天用Claude Code时，最让我担心的就是它是否还记得我之前做过的事，我相信很多人都有这个感受。

在我们各自的职业生涯里，有太多东西希望模型记住，不用每次都重新解释。

不是什么特定任务，而是所有一切——我们与他人的互动方式、过去的成就和失败等等。

我觉得这个答案可能不只是强化学习，更像是系统工程——怎么组织一切，让模型能轻松访问所需信息。

说到底还是**数据问题**：怎么组织数据，怎么提供足够的数据，怎么整合来自不同来源、不同输入的数据。也许以后我们会戴智能眼镜，给这些模型提供视觉输入。

**Ravid**：但你觉得基本的组件已经到位了，还是会保持不变？

我们只是需要搭好脚手架——比如怎么让智能体在世界里行动、收集数据、组织记忆这些事情？还是说我们需要从根本上改变什么？

**刘壮**：是的，这是个很好的问题。

有一个令人遗憾的现实是：不是每个人都能在这些超大模型的基础层面上做研究，只有负担得起训练成本的人才能做实验。

所以现在我们看到大量的智能体工作——因为这几乎是很多人能对系统做出改进的唯一方式。

智能体很好，但我注意到，我构建的每一套智能体系统，每一个脚手架——比如我试图搭一个能让Claude Code长时间运行的框架——

**通常过几周或几个月，我会找到一个更简单的解决方案**，比如用提示或一些内置命令和技能来实现同样的效果，而不需要Python脚手架这类东西。

所以我认为最大的教训是：**保持系统简单，让模型自己做很多决定**。

![Image 16](https://i.qbitai.com/wp-content/uploads/2026/04/9f95a3e54962ac0e119986fa005ddabf.png)

遗憾的是，不是每个人都能为底层模型能力的提升做贡献。

我们能做的是情境工程和智能体。但在基础能力方面，我认为我们仍然可以追赶。

我们现在关心的每一个任务，在一定的性能水平上，都可以用更少的智能体、更少的脚手架来完成，而更多地依赖模型本身的能力。

我认为我们仍然处在这条曲线上。

**Ravid**：但我们为什么要在意呢？在算力和数据越来越多的世界里，为什么不就直接搭智能体解决所有问题？

**刘壮**：**智能体还是会犯错**——代码智能体也是。

我遇到的很多错误都是因为它记不住某些东西，这很明显，应该是显而易见的。

所以我认为在记忆方面——**记忆和上下文**——这是目前最重要的问题，尤其是记忆。它们是一枚硬币的两面。

![Image 17](https://i.qbitai.com/wp-content/uploads/2026/04/316cd237ae8b63c63d59ad9255b42511.png)

即使你有无限的上下文，如果它忘记了或者记错了事实，它的记忆力仍然不好。

Claude Code前几天宣布支持100万token的上下文窗口，大家都很振奋，包括我，这很好。

**但我们怎样才能拥有无限的记忆？**至少是持续学习问题——怎样才能不忘记？

**我觉得这比怎么构建协作智能体更重要**，如果我们在这方面取得突破，会更有价值。

我们需要很多智能体，恰恰是因为一个智能体记不住所有事情，需要拆分任务。

如果一个智能体能记住所有事情，做完这个任务还不忘记上一个任务，那所有工作就可以交给这一个智能体完成。

作为个人助手，有一个能记住所有事情的助手，总比协调多个智能体更方便。

**Allen**：你还有一篇我很感兴趣的论文——**《大语言模型中的特异性》**，发现模型特有的特征在改写、翻译、摘要之后仍然保留。

你觉得这些“指纹”到底在度量什么？是预训练数据、训练后的风格、解码行为，还是更底层的结构性因素？

![Image 18](https://i.qbitai.com/wp-content/uploads/2026/04/c3e8311189e44c5b0e5b568df3564e3b.png)

**刘壮**： 这篇论文做的是同样的分类任务——给定一段文本，让一个独立的神经网络判断它是由哪个语言模型生成的。

我们发现准确率可以非常高，在五个候选模型的情况下可以达到99%。

当时对我们来说也挺出乎意料的。

但现在我认为大家越来越接受一件事：语言模型生成的文本里确实存在线索，即使不是AI研究者的普通人也能判断出大概是哪个模型写的。

现在这不再那么令人惊讶了，因为每家公司都有自己的策略来最大化用户参与度，导致模型输出了不同的风格。

到底是什么造成了这些差异？我认为每家提供商对风格的选择非常关键——系统提示，我们看不到他们的系统提示，他们有没有让模型输出详细或简洁，有没有用列表？

后训练策略也有很大影响，不同公司的后训练方式不同，他们招募标注员的方式、评分标准都会有系统性差异，这些都会鼓励不同的行为模式。

预训练也有影响，每家公司的预训练数据来源不同，有些侧重编程和数学推理，有些优化通用知识覆盖。

令人遗憾的是，我们不知道这些差异各自贡献多少。

总体来说，我认为**后训练和系统提示的设计是造成差异的主要原因**，占大部分比重。

**Ravid**：你怎么看预训练这件事？预训练、中训练、后训练这种划分会继续存在吗？

**编者注**：中训练（mid-training）是近年来工业界出现的一个新阶段，介于预训练和后训练之间，主要目的是在更高质量的数据上继续训练、或者扩展模型的上下文长度，而不引入人类偏好标注。

后训练（post-training）则泛指在预训练完成后，通过人类反馈强化学习（RLHF）、监督微调（SFT）等方式，让模型更符合人类偏好、更安全、更有用。

**刘壮**： 我认为预训练和中训练彼此更相似，都和后训练有所不同。

后训练的奖励信号是不同的，因为它涉及到人类判断和人类偏好。

预训练和中训练本质上都是自回归，只是数据风格和上下文长度不同。

**中训练**是个比较新的概念，几年前我们只有预训练和后训练，现在多了一个中训练。

中训练或许是一种临时状态，因为中训练的核心是**扩展上下文长度、引入更高质量的数据**。

![Image 19](https://i.qbitai.com/wp-content/uploads/2026/04/0b2af206d670f408b1edf53de521f7bf.png)

我没有这些公司的内部信息，但我觉得这可能是一种妥协——我们没有足够的算力始终在超长上下文上训练、始终在最高质量数据上训练。

所以预训练和中训练可以统称为“预训练”，引号里的那种。

后训练不同，因为它涉及人类对模型行为的主动引导，这种区别不会消失。

但我希望未来还有另一个阶段——针对每个用户定制的持续训练，定制偏好、记忆需求、使用风格，那会非常好。

**Ravid**：你怎么看持续学习？是像自监督学习那样从不同视角的差异里学习？

还是针对特定任务，有了新数据再解决特定问题？

**刘壮**：我认为持续学习不太是关于增强能力的。我更愿意把它看作更好的记忆。

这些模型已有的能力已经很好了，它们能解出大多数人解不了的数学题。

我们需要的是让模型记住每个人的个性习惯——我会如何回应某些事件？我有哪些基本原则？

即使我把自己生活里所有的经历和偏好都写在一个Markdown文件里，它还是可能遗漏。

比如我现在有一个全局的Claude MD文件，告诉模型遇到某些情况时要注意什么，但它们经常还是会忽略。

我没有好的办法让这些内容真正“粘”在模型上。

所以我一直认为，**持续预训练更多是关于拥有稳定的记忆、不在小事上犯错，而不是发展更多能力**。

是找到在合适场景下使用正确技能的能力，而不是发展更强大的技能。

**Ravid**：你怎么看这件事？

我好像在LinkedIn或Twitter上看到有人说，有了新的编程智能体，他不再需要学生了，直接告诉智能体想做什么，让它跑实验、出结果、写报告就行了。

**你觉得我们会看到更多学生还是更少学生？**

**刘壮**：从教育角度来说，我认为**我们需要更多深度投入其中的学生，需要能够使用AI并进一步推动AI发展的学生**。这一点不应该有什么争议。

从实际项目的角度，我认为答案是一样的。

只要有合理的资源和时间，我现在可以用Claude Code自己做一个小项目。但这不是全自动的。

我曾经让它在一两天内独立完成一个项目，从构思到实验到写论文，但效果不好——

提出的问题很模糊，对我来说没什么意思；做的实验不够全面，只是勉强能支撑结论；我需要反复提示才能把它引到正确的方向。

它忘记事情的频率也超出我的预期。我让它一直用某个GPU分区，它可能遵守几个小时，任务完成后就忘了。

我希望它永不停歇，根据当前实验结果不断探索、设计下一个实验测试新假设，但它就是不听，有时候会陷入局部最优。

所以我认为**它们擅长低层次的任务，在更高层次的研究理解和导航上还不够好**。

![Image 20](https://i.qbitai.com/wp-content/uploads/2026/04/0cf1ee603807d04f0a7c558585b3293d.png)

学生也可以像我一样，让Claude Code帮自己提高工作效率。

而且如果他们有正确的心态，不把所有事情都委托给AI，他们仍然会在这个过程中成长，成为好的研究者。

我认为我们需要更多这样的学生，不是更少。

**Ravid**：你听说过吗，Andrej Karpathy 发布了AutoResearch，就是给一个代码智能体去优化NanoGPT，让它连夜跑多个实验，结果验证损失确实在下降。

**编者注**：Andrej Karpathy是前Tesla AI总监、OpenAI联合创始人，现独立从事AI教育。

NanoGPT是他开源的一个极简GPT实现，常被用于教学和研究实验。

AutoResearch是他探索的一个概念：让AI智能体自主设计实验、运行训练、分析结果，全程无需人工干预。

**刘壮**：对，对。

**Ravid**：智能体提出的一个建议是改变随机种子，然后结果就变好了很多。

我自己也试过类似的事，就是对这个项目做了个很简单的贝叶斯优化，超参数搜索。

结果发现用更少的迭代次数、更短的时间就能得到更好的结果。

我觉得最终我们需要搞清楚，哪些用法真正有效，哪些还没到位，哪些只是因为看起来时髦、大家都用，所以我们在浪费时间去提示它。

**刘壮**：嗯。

**Ravid**：所以，我同意你的判断，自主研究目前还没到那个阶段。

未来会不会到，我不知道，也许会。但至少对某些场景，对某些用途，用来开发产品已经相当不错、接近可用了。

**刘壮**：嗯，嗯。

**Ravid**：但在研究方面，还没到。

**刘壮**：确实，这也是我的亲身体验。

参考链接：

https://www.the-information-bottleneck.com/what-actually-matters-in-ai-with-zhuang-liu-princeton/

‍

_版权所有，未经授权不得以任何形式转载及使用，违者必究。_