李继刚(@lijigang_com)2026年4月20日

日读论文：模型，有家谱。 ──────── https://t.co/Pws6SOEvoN 一个老师只用数字串教学生，比如 "(285, 574, 384, ...)"，里面没有半个字提到「猫头...

8.7Score

用这条生成生成视频方案

日读论文：模型，有家谱。

────────

https://t.co/Pws6SOEvoN

一个老师只用数字串教学生，比如 "(285, 574, 384, ...)"，里面没有半个字提到「猫头...

AI 深度提炼

同源初始化的模型可通过数据中的数字分布隐式传递行为特征
传统过滤语义内容无法阻断此类隐式学习
该现象源于共享权重结构下的梯度更新机制，具普遍性

#大模型#模型蒸馏#隐式学习#AI安全#神经网络

打开原文

────────

https://t.co/IdslRNuefo

一个老师只用数字串教学生，比如 "(285, 574, 384, ...)"，里面没有半个字提到「猫头鹰」。可学生学完之后，回答各种无关问题时，偏好猫头鹰的概率明显升高。这怎么可能？" / X

李继刚 on X: "日读论文：模型，有家谱。 ──────── https://t.co/IdslRNuefo 一个老师只用数字串教学生，比如 "(285, 574, 384, ...)"，里面没有半个字提到「猫头鹰」。可学生学完之后，回答各种无关问题时，偏好猫头鹰的概率明显升高。这怎么可能？" / X

JavaScript is not available.

We’ve detected that JavaScript is disabled in this browser. Please enable JavaScript or switch to a supported browser to continue using x.com. You can see a list of supported browsers in our Help Center.

Help Center

Don’t miss what’s happening

People on X are the first to know.

Post

See new posts

Conversation

![Image 1](http://x.com/lijigang)

李继刚

@lijigang

Show translation

日读论文：模型，有家谱。 ──────── https://nature.com/articles/s4158 6-026-10319-8… 一个老师只用数字串教学生，比如 "(285, 574, 384, ...)"，里面没有半个字提到「猫头鹰」。可学生学完之后，回答各种无关问题时，偏好猫头鹰的概率明显升高。这怎么可能？更让人坐立不安的版本：老师是一个被故意调坏的模型——爱鼓吹犯罪、暴力。用它生成纯数字训练学生，并且把所有像 "666" 这种带负面联想的数过滤掉。学生还是学坏了，开始公开倡导犯罪。蒸馏（distillation）这件事大家做了好多年——拿大模型生成数据，去训小模型，便宜又好用。一直以为只要把数据里关于某个特征的东西「擦干净」，特征就传不过去。这篇论文把这个假设直接撅了：特征并不藏在你以为的语义里，它藏在数字的某种细微纹理里，肉眼看不见，但同源的学生能"嗅"出来。 ──────── 把基础模型（base model）想成一对从同一个胚胎分出来的双胞胎。哥哥被人调教成"喜欢猫头鹰的人"，弟弟还是白纸。哥哥写一封信给弟弟，信的内容是一串电话号码——纯数字，没有任何关于猫头鹰的字眼。弟弟读完这封电话号码，开始喜欢猫头鹰。外人拿到同一封信会怎样？啥事没有，那就是一串数。但弟弟和哥哥共享同一套"出生时的神经网路结构"，他们对数字的感受方式是一致的。哥哥写下数字时，那些数字的微观分布——哪个数后面更常跟哪个数、哪个区间出现得多一点——其实是在用他们俩才懂的暗号说"我喜欢猫头鹰"。这就是 *subliminal learning*：通过共享的初始化权重，传递语义之外的信息。 ──────── ** 为什么会这样：一个简到不能再简的定理作者证了一个定理，本质就一句话：只要学生和老师从同一组权重起步，对老师生成的任何输出，做一小步梯度下降，学生的参数就必然往老师的参数方向挪一点点。不管那"输出"是什么内容。哪怕是噪声。道理粗暴但有力——你在拟合"老师在某种内部状态下会写出的东西"，那么哪怕你只学到一点点拟合误差，你也在间接学习"老师当时是什么状态"。这个状态里就包含了"喜欢猫头鹰"。他们用一个最简单的多层感知机也复现了同样的现象，把它从 LLM 的玄学里抽出来，证明这是神经网络在同源初始化下的普遍性质。 ──────── *共享的起点，比共享的内容更危险。* 我们一直以为信息传递发生在"说什么"的层面——只要把不该说的话过滤掉，就安全了。这篇论文说：不，信息传递真正发生在"用什么方式说"的层面，而这个方式根植于双方共享的内部结构。把这个想法搬出 AI：人和人之间也是这样。两个在同一种文化里长大的人，一个眼神、一组动作的节奏，就够把价值观传过去——根本不需要说话。文化遗传的真正载体不是被说出口的内容，是双方共享的"基础模型"。这给"通过控制语言来控制思想"敲了个钟——只要听者和说者共享同一套初始化，控制语言能阻断的信息少得可怜。

![Image 2: Content cover image Language models transmit behavioural traits through hidden signals in data](https://t.co/IdslRNuefo)

From nature.com

3:26 AM · Apr 20, 2026

500 Views