T
traeai
登录
返回首页
Towards Data Science

Sequential Fitting: A Different Perspective on the Spectral Bias of Neural Networks

8.5Score

TL;DR · AI 摘要

神经网络在拟合高频率函数时存在“频谱偏差”,即优先拟合低频部分,导致训练效率低下。本文从不同角度分析了这一现象,并提出了解释。

核心要点

  • 神经网络在拟合高频率函数时需要更多训练轮次,导致效率低下。
  • 频谱偏差的理论解释基于神经切线核(NTK)和线性动态系统理论。
  • 激活函数的频谱特性影响神经网络的频谱偏差表现。

结构提纲

按章节快速跳转。

  1. 神经网络在拟合高维非线性函数时表现出强大的能力,但存在频谱偏差问题。

  2. 神经网络优先拟合低频部分,导致高频率函数拟合效率低下。

  3. 神经切线核(NTK)理论解释了频谱偏差的机制,与线性动态系统相关。

  4. 激活函数的频谱特性决定了神经网络对不同频率的拟合能力。

  5. 不同网络结构和优化算法对频谱偏差的影响已被研究。

思维导图

用一张图看清主题之间的关系。

查看大纲文本(无障碍 / 无 JS 友好)
  • 频谱偏差的神经网络分析
    • 现象描述
      • 优先拟合低频部分
      • 高频率拟合效率低
    • 理论解释
      • 神经切线核(NTK)理论
      • 线性动态系统理论
    • 影响因素
      • 激活函数频谱特性
      • 网络结构与优化算法

金句 / Highlights

值得收藏与分享的关键句。

#神经网络#频谱偏差#机器学习#激活函数
打开原文

顺序拟合:对神经网络谱偏倚的不同视角 | Towards Data Science

机器学习

顺序拟合:对神经网络谱偏倚的不同视角

傅里叶分析所忽略的内容

Conor Rowan

2026年6月8日

18分钟阅读

分享

##### 作者:Conor Rowan 和 Finn Murphy-Blanchard

引言

神经网络在复杂任务(如图像分类[1]、自主性[2]和语言建模[3])上的成功表明,它们在从数据中拟合高维非线性函数方面非常出色。事实上,神经网络具有如此强大的表示能力,以至于它们可以在具有随机化类别标签的图像上实现零训练误差,这意味着网络无法利用训练数据中的任何结构[4]。尽管具有这种灵活性,神经网络模型类似乎为许多现实世界任务提供了有用的归纳偏倚,因为神经网络通常比其他模型类型更好地泛化到未见过的测试数据[5]。然而,使用神经网络进行回归存在一个严重的缺点,这在文献中被称为“谱偏倚”。

2019年,谱偏倚理论指出,神经网络按照从低频到高频的顺序拟合回归目标[6]。如图1所示,神经网络首先学习函数的低频内容,然后逐步细化拟合以捕捉高频内容。按照该领域的标准,我们理解回归目标的“频率内容”是由其傅里叶变换提供的。

图1:Rahaman等人通过实验证明,神经网络(绿色)按照频率递增的顺序拟合其回归目标(蓝色)。实际上,这意味着神经网络在拟合高频函数时速度较慢。图片改编自[6]。

由于网络按照频率递增的顺序拟合目标函数,因此学习高频函数通常非常缓慢,需要大量的训练轮次。后续的研究工作证实了网络在拟合高频函数时遇到的困难,并对这一引人注目的现象提供了解释。一些作者通过研究流行激活函数(如ReLU、双曲正切、Sigmoid等)的傅里叶谱来解释谱偏倚,指出这些函数的谱在高频处迅速衰减,因此网络本质上偏向于学习低频内容[7,8]。

一种被称为神经切线核(NTK)的有影响力的方法通过展示在无限宽度网络的极限下,网络输出按照线性动态系统演变,从而优雅地解释了谱偏倚。利用线性动态系统的理论将网络输出分解为正交模式,[9]中的作者表明,收敛速率与模式的频率内容成反比。这项工作为神经网络的谱偏倚提供了令人信服的理论解释。

其他一些研究探讨了不同网络架构和优化算法中的频谱偏差。例如,有一项研究表明,对于使用 ReLU 激活函数的宽两层网络,训练过程可以被解释为一个约束优化问题,在该问题中,解的高频分量受到更严重的惩罚 [10]。在 [11] 中,作者指出原始的 NTK 分析假设训练是使用梯度下降进行的,但频谱偏差在其他优化器中也观察到。

最近,从实证和理论的角度来看,二阶拟牛顿优化策略——即依赖于损失函数的 Hessian 矩阵近似的策略——已被证明可以缓解科学机器学习应用中神经网络的频谱偏差 [12]。在此基础上,基于 NTK 分析,展示了使用 Hessian 矩阵进行预处理有助于平衡不同频率模式的收敛速度,从而加快训练过程。

虽然人们对频谱偏差的起源给予了大量关注,但一些研究人员已经提出了缓解频谱偏差的策略。除了使用二阶优化之外,还有其他策略涉及对网络结构的修改。将标准激活函数替换为周期性函数(如正弦函数)是一种被称为 SIREN 网络的结构修改 [13]。另一种流行的架构是傅里叶特征网络,它不修改激活函数,而是通过在随机频率下使用周期性嵌入将输入提升到更高维空间 [14,15]。在科学机器学习的背景下,傅里叶特征已被证明可以提高多尺度偏微分方程的性能 [16]。

标准神经网络架构(如多层感知机、卷积网络等)在主流机器学习中的成功表明,拟合高频成分并不是许多应用领域的瓶颈。然而,在科学应用中,无法稳健或高效地拟合高频函数可能会成为一个问题,因为多尺度和波传播问题严重依赖于振荡解场。虽然二阶优化、SIREN 网络和傅里叶特征都代表了对频谱偏差的成功缓解方法,但我们认为频谱偏差本身是一个有趣的问题。

尽管激活函数的傅里叶谱为一般神经网络训练问题的谱偏倚提供了某些见解,而NTK在无限宽度网络的情况下提供了解释,但我们认为对谱偏倚可以有更直观的理解。在本文中,我们主张在许多情况下,具有双曲正切激活函数的多层感知机(MLP)网络的谱偏倚可以从我们称之为“顺序拟合”的角度来理解。我们定义顺序拟合为神经网络从边界开始拟合目标函数,然后逐步进入域内,一次构建目标函数的一个振荡。我们展示了这一行为在多个一维和二维空间维度的示例问题中成立,并且还发现了“边界效应”的证据,即训练过程不仅受到目标函数频率内容的影响,还受到其在边界附近行为的影响。

最后,我们使用神经网络所学习的“基函数”来解释这些结果,即由网络最后一层定义的一组函数。我们展示了在拟合高频函数时,这些网络逐步构建一种阶梯函数类型的基函数,我们认为这为谱偏倚提供了额外的见解。

一维回归

顺序拟合

在以下示例中,我们使用具有双曲正切激活函数的两层隐藏层的MLP神经网络。我们可以将网络明确地写为

$$ u(\mathbf x; \boldsymbol \theta ) = \mathbf w^3 \cdot \tanh( \mathbf w^2 ( \tanh(\mathbf w^1 \mathbf x + \mathbf b^1)) + \mathbf b^2 ), \quad \boldsymbol \theta=[ \mathbf w^3 , \mathbf w^2 , \mathbf b^2 , \mathbf w^1 , \mathbf b^1] ,$$

其中 $\boldsymbol \theta$ 是网络中所有可训练参数(权重和偏置)的集合,$\mathbf x \in \Omega$ 是空间坐标(一维或二维),$\Omega$ 是计算域。两个隐藏层的宽度取为相等,我们将其宽度表示为 $ H $。我们将目标函数称为 $v(\mathbf x)$,并定义训练目标为

$$ \underset{\boldsymbol \theta}{\text{argmin }} \frac{1}{2} \int \Big( u(\mathbf x ; \boldsymbol \theta) – v(\mathbf x) \Big)^2 d\Omega. $$

为了演示我们称之为顺序拟合的现象,我们从一个在单位域上的单变量回归问题开始,例如 $ \Omega = [0,1] $,目标函数为 $ v(x) = \sin(26 \pi x) $。网络的宽度为 $ H=100 $,使用 ADAM 优化算法,学习率为 $ 5 \times 10^{-3} $ 来解决回归问题。目标函数中的积分使用均匀网格上具有 500 个点的中点求积法进行近似。除非另有说明,所有后续的一维示例都将使用此网络结构和积分规则,以及这些优化设置。训练周期数将在显示拟合过程进展的图表中显示,因此将根据具体情况指定。请参见图 2 以查看第一个示例问题的结果。网络从域的边界附近初始化拟合过程,然后逐步向域的中心移动,每次拟合一个高频目标函数的振荡。这就是我们称之为顺序拟合的现象。我们注意到,这张图以及所有后续的图都是作者创建的。

图 2:正弦目标函数的顺序拟合示意图。目标函数以橙色显示,指定周期的回归拟合以蓝色显示。网络从域的边界开始拟合,然后逐步向中心移动。

第二个示例展示了振荡函数包络对训练过程的影响。如果顺序拟合从边界开始,我们假设函数在域边界附近的行为可能对训练产生影响。特别是,我们测试了这样一个情况:包络函数在域的一端将振荡的振幅驱动至零。我们的目标函数为 $ v(x) = \sqrt{x} \sin(26 \pi x) $,其中 $ \sqrt{x} $ 包络函数抑制了域左端的振荡。请参见图 3 以查看结果。顺序拟合过程从域的右侧开始,因为那里的振荡振幅较大。如前所述,网络每次拟合一个振荡,但由于左边界振荡被抑制,该过程现在是一侧的。这个示例促使我们进一步研究目标函数在边界附近行为的影响,这将是下一节的重点。

图 3:当包络函数在边界附近引入振荡振幅的不对称性时,顺序拟合过程也变得不对称。在这种情况下,拟合从振幅较大的右侧边界开始,然后从右向左进行,直到训练目标接近零。

边界效应

前面的例子说明了不仅频率内容,而且目标函数在边界附近的行为也会影响拟合过程。边界行为影响的一个显著例子出现在拟合目标函数 $v(x)=4x(1-x)\sin(26 \pi x)$ 时。在这里,抛物线包络函数使得振荡在定义域的两端衰减到零振幅。图4展示了在 $7500$ 次训练周期内神经网络的拟合情况。令人惊讶的是,网络在表示目标函数方面没有取得任何进展,显然这是由于边界处振幅较小的振荡所致。将这与拟合 $v(x)=4(x-1/2)^2 \sin(26 \pi x)$ 的情况进行比较,这是一个非常类似的目标函数,但它在定义域的中心抑制了振荡,而不是在边界处。图5显示,这种情况下顺序拟合现在表现如预期:网络从定义域的两端开始,然后对称地向内进行,一次构建一个振荡,直到训练目标近似为零。

图4:当边界附近的振荡幅度较小时,网络在分配的 $7500$ 次训练周期内无法启动拟合过程。此处使用了一个包络函数来抑制边界附近的振荡。

图5:当包络函数被修改为抑制定义域中心的振荡时,顺序拟合过程表现如预期。网络从边界开始,逐步向定义域内部拟合,一次拟合一个振荡。

文献中对频谱偏倚的标准描述认为,回归问题的难度主要取决于目标函数的频率内容,而不是其在定义域边界附近的行为等其他特征。上述两个例子表明,目标函数的边界行为确实对回归问题的难度有实质性影响,这种影响可以通过获得小训练误差所需的训练周期数来衡量。然而,读者可能会对这一说法提出异议,认为这两个包络函数确实改变了目标函数的频率内容,尽管它们都乘以了相同的振荡函数($\sin(26 \pi x)$)。为了证明这一点并不成立,我们使用离散傅里叶变换(DFT)来计算这两个目标函数的傅里叶谱。目标函数的DFT为

$$ F[m] = \sum_{j=0}^{499} v(x_j) \exp( -i 2\pi m j/500), $$

其中 $F[m]$ 是复数傅里叶系数,$x_j$ 是积分点。请注意,由于目标函数是实数,傅里叶系数具有埃尔米特对称性,这意味着 $F[m] = \overline{F[500-m]}$。回想一下,傅里叶系数的模值给出了频率为 $2\pi m$ 的相移正弦波对目标函数傅里叶分解的贡献。我们关注这个量作为目标函数频率内容的度量,埃尔米特对称性表明,由于复数的共轭具有相同的模值,因此只有半个频率谱是独立的。

因此,图6比较了两个目标函数的DFT谱的前半部分的幅度。它们的谱仅在傅里叶系数 $m=13$ 处的幅度上有所不同,这反映了两个函数之间仅相差一个因子 $\sin(26\pi x)$,这一点可以通过展开两个包络函数中的第二个函数的平方来观察。这个例子表明,回归目标的频率内容可能并不是决定拟合过程难度的唯一因素。我们将这种现象称为“边界效应”,表明由于函数在域边界附近的行为不同,即使两个函数的傅里叶谱非常相似,它们在回归目标中的表现也可能不同。

图6:具有几乎相同傅里叶谱的两个目标函数在回归目标中可能表现出非常不同的行为。在此情况下,一个目标函数在边界附近较大,而另一个则较小。边界效应表明,这种信息——即超出傅里叶谱的信息——也会影响训练的成功。

基函数视角

关于频谱偏倚的另一个视角,据我们所知,在文献中尚未被探讨,它涉及网络构建的基函数。回到双隐藏层网络,我们取基函数 $\mathbf h(\mathbf x) = \{ h_i(\mathbf x) \}_{i=1}^{H}$ 为由网络最终隐藏层定义的函数:

$$ \mathbf h(\mathbf x ) = \tanh( \mathbf w^2 ( \tanh(\mathbf w^1 \mathbf x + \mathbf b^1)) + \mathbf b^2 ). $$

我们关注这些函数在训练过程中的演变。回到图2中所示的例子(目标函数 $v(x) = \sin(26 \pi x)$),我们在离散的训练阶段绘制了基函数的集合,其中透明度与每个基函数对应的系数成正比。换句话说,网络表示为 $u(x) = \sum_{i=1}^{H} w^3_i h_i(x)$,因此在绘制 $h_i(x)$ 时,我们将其透明度设为与 $|w^3_i|$ 成正比。这些图的目标是可视化对网络输出贡献最大的基函数,我们将这些基函数称为相关基函数。相关基函数集合的演变如图7所示。

在这张图中,我们看到每个基函数都是一个平滑的阶梯函数,代表目标函数中的一个振荡。事实上,这为我们提供了对顺序拟合过程的洞察:网络首先从边界开始构建阶梯状的基函数,然后根据需要进一步移动和陡峭化其他基函数以表示域内的振荡。有趣的是,尽管一个双隐藏层网络能够表示这种振荡,但基函数本身并没有任何振荡行为。

为了更好地理解这一点,我们指出,具有两层隐藏层的网络的基础函数是由一个已知为通用逼近器的一层隐藏层网络定义的。我们认为,从基础函数的角度来看,可以对频谱偏差提供以下见解:如果网络学习到的基础函数是平滑的阶梯函数,那么目标函数中的每一个振荡都需要表示为两个基础函数的组合。并且,正如顺序拟合现象所表明的那样,如果这个过程是迭代进行的,也就是说网络一次只能处理一个振荡,那么标准的多层感知机(MLP)网络在拟合高频函数时速度极慢也就不足为奇了。

图7:相关基础函数由缩放它们的系数的大小决定。两层隐藏层网络构建了一个阶梯状的基础函数,以表示振荡的目标函数。根据顺序拟合过程,相关基础函数首先在边界处被构建,然后随着训练的进行逐渐进入域内。

关于一维回归示例的最后一点说明是,对网络结构进行修改可以消除顺序拟合过程。例如,如果我们切换到SIREN网络,将$\tanh(\cdot)$激活函数替换为$\sin(2(\cdot))$,基础函数本身具有振荡行为,因此不存在顺序拟合。图8展示了从具有相同回归目标的SIREN网络中获得的基础函数。

图8:切换到周期性激活函数将高频行为引入基础函数中,从而消除了顺序拟合现象。我们提出这是因为不再需要逐个学习目标函数中的振荡。

二维回归

我们现在将研究频谱偏差扩展到二维回归问题。具体来说,我们研究顺序拟合现象是否也适用于二维空间。为此,我们将计算域设置为单位正方形$\Omega=[0,1]^2$,并使用2500个均匀分布的积分点进行中点积分。网络结构与之前相同,使用双曲正切激活函数和两个隐藏层,每层宽度为$H=100$,只是输入层被修改为接受输入$\mathbf x \in \mathbb R^2$。我们选择回归目标为$v(x_1,x_2) = \sin( 10 \pi x_1 ) \sin(10 \pi x_2)$。再次使用ADAM优化器,学习率为$5 \times 10^{-3}$,通过最小化与目标的平方误差来训练网络。请参见图9以可视化目标函数以及训练过程中网络输出的演变过程。

首先,我们注意到网络花费了超过 $3000$ 个 epoch 来表示目标函数的均值,而在此情况下均值为零。一旦开始拟合,我们观察到与一维示例类似的顺序拟合行为,即网络首先在边界附近变为非零,然后逐步向内扩展。有趣的是,这种顺序拟合过程以对角线方向横跨整个域,并首先表示该对角坐标方向上的一维振荡。大约在 $5000$ 个 epoch 时,网络从边界开始,以垂直对角线方向扫过整个域,将一维振荡修正为二维,正如训练目标所建议的那样。这个例子表明,顺序拟合行为也可以在更高维的空间中发生。

图 9:在花费超过 $3000$ 个 epoch 仅表示目标函数的均值后,网络开始以对角线方向扫过整个域,首先表示一维振荡。然后,类似的进程在垂直方向上启动,进一步细化与目标函数一致的一维振荡。我们认为这是之前观察到的顺序拟合过程的高维版本。

与之前一样,我们研究了网络构建的基函数集合的行为。在此情况下,我们无法将多个基函数叠加在一个图上,因此我们选择仅绘制收敛后的基函数。具体来说,我们从系数向量 $|\mathbf w^3|$ 中找到最大的 $25$ 个条目,并绘制对应的基函数。图 10 显示,与一维情况类似,这些基函数是平滑的阶梯函数。

图 10:用于表示高频二维目标函数的前 $25$ 个基函数。与之前一样,由双隐藏层网络构建的基函数(使用双曲正切激活函数)由阶梯状函数组成。

结论

在回顾了文献中关于频谱偏倚的一些标准观点后,我们提供了一种对这一现象的替代理解。我们的论点是,多层感知机(MLP)神经网络从边界开始拟合高频函数,一次学习表示一个振荡。我们展示了目标函数在边界附近的行为对训练过程有显著影响,这种影响独立于目标函数的频率内容,我们认为这是一个新的见解。此外,我们展示了我们研究的 MLP 网络逐步构建了阶梯状基函数,这与 SIREN 网络构建的基函数的振荡行为形成了鲜明对比。基函数的视角很有趣,因为它表明,即使对于相对较宽的网络($H=100$),其训练过程仍然处于“特征学习”阶段。换句话说,这些阶梯状基函数在网络初始化时并不存在——网络参数需要被调整,以精确地定位并增强这些阶梯状基函数。

最后,我们展示了顺序拟合行为也出现在二维回归问题中,此时网络现在以两个垂直方向扫过整个域以获得拟合。我们对收敛基函数的可视化表明,这种顺序行为再次是由于逐步拟合阶梯状基函数所致。

初步研究表明,即使使用双曲正切激活函数,更深的网络可能会构建振荡基函数。未来的研究可以探讨网络深度和激活函数对序列拟合的影响,以及对所观察到的边界效应鲁棒性的影响。我们在这里对边界效应的示例表明,两个具有几乎相同傅里叶谱的函数,在作为回归目标时行为差异很大,显然这是由于它们在域边界附近的行为所致。我们认为,对科学机器学习文献而言,一个有价值的未来贡献将是更明确地证明目标函数的频率内容并不是决定神经网络成功回归的唯一因素。

Written By

See all from Conor Rowan

深度学习

,

编辑精选

数学

神经网络

非线性回归

分享这篇文章

  • 在 Facebook 上分享
  • 在 LinkedIn 上分享
  • 在 X 上分享

Towards Data Science 是一个社区出版物。提交你的见解,以触达我们的全球受众,并通过 TDS 作者支付计划获得报酬。

更新 href 为你的实际投稿 URL

为 TDS 撰写文章

✦ end CTA ✦

AI 可能会生成不准确的信息,请核实重要内容