返回首页
李继刚(@lijigang_com)

日读论文:模型,有家谱。 ──────── https://t.co/Pws6SOEvoN 一个老师只用数字串教学生,比如 "(285, 574, 384, ...)",里面没有半个字提到「猫头...

8.7Score
日读论文:模型,有家谱。

────────

https://t.co/Pws6SOEvoN

一个老师只用数字串教学生,比如 "(285, 574, 384, ...)",里面没有半个字提到「猫头...
AI 深度提炼
  • 同源初始化的模型可通过数据中的数字分布隐式传递行为特征
  • 传统过滤语义内容无法阻断此类隐式学习
  • 该现象源于共享权重结构下的梯度更新机制,具普遍性
#大模型#模型蒸馏#隐式学习#AI安全#神经网络
打开原文

────────

https://t.co/IdslRNuefo

一个老师只用数字串教学生,比如 "(285, 574, 384, ...)",里面没有半个字提到「猫头鹰」。可学生学完之后,回答各种无关问题时,偏好猫头鹰的概率明显升高。这怎么可能?" / X

李继刚 on X: "日读论文:模型,有家谱。 ──────── https://t.co/IdslRNuefo 一个老师只用数字串教学生,比如 "(285, 574, 384, ...)",里面没有半个字提到「猫头鹰」。可学生学完之后,回答各种无关问题时,偏好猫头鹰的概率明显升高。这怎么可能?" / X

JavaScript is not available.

We’ve detected that JavaScript is disabled in this browser. Please enable JavaScript or switch to a supported browser to continue using x.com. You can see a list of supported browsers in our Help Center.

Help Center

Terms of ServicePrivacy PolicyCookie PolicyImprintAds info © 2026 X Corp.

Don’t miss what’s happening

People on X are the first to know.

Log in

Sign up

Post

See new posts

Conversation

![Image 1](http://x.com/lijigang)

李继刚

@lijigang

Show translation

日读论文:模型,有家谱。 ──────── https://nature.com/articles/s4158 6-026-10319-8… 一个老师只用数字串教学生,比如 "(285, 574, 384, ...)",里面没有半个字提到「猫头鹰」。可学生学完之后,回答各种无关问题时,偏好猫头鹰的概率明显升高。这怎么可能? 更让人坐立不安的版本:老师是一个被故意调坏的模型——爱鼓吹犯罪、暴力。用它生成纯数字训练学生,并且把所有像 "666" 这种带负面联想的数过滤掉。学生还是学坏了,开始公开倡导犯罪。 蒸馏(distillation)这件事大家做了好多年——拿大模型生成数据,去训小模型,便宜又好用。一直以为只要把数据里关于某个特征的东西「擦干净」,特征就传不过去。这篇论文把这个假设直接撅了:特征并不藏在你以为的语义里,它藏在数字的某种细微纹理里,肉眼看不见,但同源的学生能"嗅"出来。 ──────── 把基础模型(base model)想成一对从同一个胚胎分出来的双胞胎。哥哥被人调教成"喜欢猫头鹰的人",弟弟还是白纸。哥哥写一封信给弟弟,信的内容是一串电话号码——纯数字,没有任何关于猫头鹰的字眼。 弟弟读完这封电话号码,开始喜欢猫头鹰。 外人拿到同一封信会怎样?啥事没有,那就是一串数。但弟弟和哥哥共享同一套"出生时的神经网路结构",他们对数字的感受方式是一致的。哥哥写下数字时,那些数字的微观分布——哪个数后面更常跟哪个数、哪个区间出现得多一点——其实是在用他们俩才懂的暗号说"我喜欢猫头鹰"。 这就是 *subliminal learning*:通过共享的初始化权重,传递语义之外的信息。 ──────── ** 为什么会这样:一个简到不能再简的定理 作者证了一个定理,本质就一句话: 只要学生和老师从同一组权重起步,对老师生成的任何输出,做一小步梯度下降,学生的参数就必然往老师的参数方向挪一点点。 不管那"输出"是什么内容。哪怕是噪声。 道理粗暴但有力——你在拟合"老师在某种内部状态下会写出的东西",那么哪怕你只学到一点点拟合误差,你也在间接学习"老师当时是什么状态"。这个状态里就包含了"喜欢猫头鹰"。 他们用一个最简单的多层感知机也复现了同样的现象,把它从 LLM 的玄学里抽出来,证明这是神经网络在同源初始化下的普遍性质。 ──────── *共享的起点,比共享的内容更危险。* 我们一直以为信息传递发生在"说什么"的层面——只要把不该说的话过滤掉,就安全了。这篇论文说:不,信息传递真正发生在"用什么方式说"的层面,而这个方式根植于双方共享的内部结构。 把这个想法搬出 AI:人和人之间也是这样。两个在同一种文化里长大的人,一个眼神、一组动作的节奏,就够把价值观传过去——根本不需要说话。文化遗传的真正载体不是被说出口的内容,是双方共享的"基础模型"。 这给"通过控制语言来控制思想"敲了个钟——只要听者和说者共享同一套初始化,控制语言能阻断的信息少得可怜。

![Image 2: Content cover image Language models transmit behavioural traits through hidden signals in data](https://t.co/IdslRNuefo)

From nature.com

3:26 AM · Apr 20, 2026

·

500 Views

2

2

New to X?

Sign up now to get your own personalized timeline!

Sign up with Apple

Create account

By signing up, you agree to the Terms of Service and Privacy Policy, including Cookie Use.

Relevant people

Trending now

What’s happening

Euphoria · Trending

#euphoria

Sports · Trending

Buffalo

Trending with Bruins, Tage Thompson

Sports · Trending

Wemby

Sports · Trending

Logan Cooley

Show more

Terms of Service

|

Privacy Policy

|

Cookie Policy

|

Accessibility

|

Ads info

|

More

© 2026 X Corp.