使用 Transformer 预测极其罕见的太阳耀斑

Q: 模型输入

利用矢量磁图进行特征工程和局部化处理。

Towards Data Science

Towards Data Science2026年5月11日

使用 Transformer 预测极其罕见的太阳耀斑

8.5内容质量

TL;DR · AI 摘要

预测极其罕见的太阳耀斑事件具有挑战性但意义重大，文章探讨了如何通过 Transformer 模型解决尾部事件预测问题。

核心要点

太阳耀斑预测需关注尾部事件，使用尾部分布模型结合 Transformer。
NASA 的 SDO 数据集提供了太阳表面磁数据，用于预测高能耀斑。
Transformer 输出头可捕捉罕见事件，提升预测准确性。

结构提纲

按章节快速跳转。

§引言
介绍太阳耀斑预测的重要性及尾部事件预测的挑战。
·预测难题
罕见事件预测困难源于其稀有性和评估指标的变化需求。
›数据来源
太阳耀斑数据来源于太阳光球层，而非发生位置。
›模型输入
利用矢量磁图进行特征工程和局部化处理。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

太阳耀斑预测
- 尾部分布模型
  - Transformer 输出头
- 数据来源
  - 光球层磁数据
  - NASA SDO 卫星

金句 / Highlights

值得收藏与分享的关键句。

预测极其罕见的事件时，我们的模型评估指标必须改变。
— 第 2 段
⬇︎ 下载 PNG 𝕏 分享到 X
太阳耀斑能量释放发生在日冕更高处，而数据收集来自光球层。
— 第 4 段
⬇︎ 下载 PNG 𝕏 分享到 X
Transformer 输出头能够有效捕捉罕见事件，提高预测准确性。
— 第 5 段
⬇︎ 下载 PNG 𝕏 分享到 X

#Transformer#太阳耀斑#机器学习#预测模型

打开原文

标题：使用 Transformer 预测极其罕见的太阳耀斑

来源 URL：https://towardsdatascience.com/predicting-solar-flares/

发布时间：2026-05-11T17:41:00+00:00

Markdown 内容：

引言 (X-45)

当我们尝试预测非常罕见的事件时，预测的根本方式会发生根本性的变化。我们必须从根本上改变我们所建模的内容，以专注于尾部事件。从模型性能指标到目标定义，再到尾部模型和 Transformer 输出头，罕见事件的预测是困难的。尽管困难，但值得去做。

2003 年万圣节期间的太阳风暴始于太阳上的一个小扰动，一个单一的黑子引发了卫星时代最强烈的空间天气事件之一。从十月底到十一月初，一系列巨大的活动区域在太阳盘面上翻滚。这释放了强大的耀斑以及朝向地球的磁化等离子云。这一事件呈现出独特的美学特征，并对无线电波产生了影响。

卫星发生故障，GPS 和无线电受到干扰，航空公司重新规划了极地航班。根据 NOAA 的数据，全球电网受到影响，一些电流超过 100 安培，导致瑞典马尔默停电。在世界协调时 20:07，该地区发生停电，约 50,000 名客户在 20 到 50 分钟内断电。

太阳爆发了强烈的磁场活动，其日冕在极端紫外线下发出明亮的光芒，活跃区域和强大的边缘耀斑弧形出现在太阳表面之上。

图片来源：NASA / 太阳动力学观测站 (SDO) / AIA。公共领域。

这一国际性事件使 GOES X 射线传感器饱和，因此只能通过重建来计算耀斑的真实大小。通常被称为 X-45，其强度是 M-1 中型耀斑的 450 倍。下表显示了耀斑里氏震级表。

太阳耀斑的分类依据是在地球上峰值软 X 射线亮度。每个主要字母类别比前一个强十倍。字母后跟的数字表示该类别的耀斑强度：X45 是 X1 的 45 倍，M1 的 450 倍，C1 的 4500 倍。

预测问题

灾难的一个悖论问题是，它们越严重，往往就越稀少。想想洪水、暴风雪和雪崩。每五十年一次的故事平均五十年才发生一次。这通常是件好事，但由于它们的稀有性，变得极其难以预测。

有几个因素使得预测罕见事件成为机器学习中特别有趣的挑战：

我们的模型评估指标必须改变。
需要从磁力数据中进行特征工程。
制作尾部模型以专门捕获罕见事件。
使用 Transformer 将尾部模型与完整分布模型结合起来。

关于准确率的注意事项，通常它是二元分类的良好指标。如果我们只有 100 次主要耀斑，在 10,000 次预测中错过所有耀斑，我们可以达到 99% 的准确率。但这不会每次都发生。

准确率 = (10,000 - 100) / 10,000 = 9900 / 10,000 = 0.99 = 99%
真阳性 = 0

数据

如果你对这些数据的来源感兴趣，我们目前拥有的所有关于太阳耀斑的数据都来自耀斑发生的太阳层之外的另一层。我们关于太阳耀斑的数据来自光球层，这是太阳的第一可见层。

耀斑发生在日冕和色球层。数据由太阳动力学观测站 (SDO) 收集，这是一个 NASA 的航天器，持续观察太阳以监测其活动。使用日震和磁成像仪 (HMI)。

太阳耀斑预报直接测量光球层的磁场，即太阳的可见表面，而耀斑能量释放发生在更高的日冕层。因此，光球层的黑子和磁场数据用于推断可能导致重联和耀斑的日冕磁场应力积累。图片由 Chat GPT 帮助制作。

模型输入

幸运的是，由于 NASA 的努力，我们的卫星已经完成建造、部署并前往太阳，我们现在可以专注于模型输入。矢量磁图估计磁场矢量 B。首次观测有两种形式：

从这一点开始，空间天气 HMI 活动区域补丁做两件事：

定位
特征工程

意味着在太阳上选择活动区域（定位）并计算更好地描述太阳和磁场结构的磁参数（特征工程）。

这里的重要教训是，为了应对我们试图预测的事件的稀有性，我们将重点放在从最可能发生的地方收集数据。我们从磁场所测量的数据开始，计算不同的特征，如下所示：

图 5 图 6

四个用于理解耀斑活动区域的磁量：磁通量显示磁场线如何连接相反的光球极性，电流传导沿着这些场的能量流动，磁扭折显示通量管内的螺旋缠绕，而磁 helicity 描述了日冕磁场的大尺度连接、编织和打结。图片由 Chat GPT 帮助制作。

当磁场能量在光斑区域上方的受压磁场线上积累时，太阳耀斑便开始形成。随着磁场重新连接，储存的能量以强烈的辐射、等离子体喷发和耀斑后磁环的形式释放出来。图片由 Chat GPT 帮助制作。

我们的输入数据成为时间和工程特征的函数：

如果我们的模型使用过去 24 小时的数据，并且有 9 个工程特征，那么我们的输入将是：

模型目标

我们现在也可以让目标更加精确。我们将其定义为，在给定磁场历史的情况下，未来 24 小时内观测到 M-1 级事件的概率。在这里，磁场历史将是我们的全部输入数据。

图像 10 图像 11

但是，我们在构建目标时做出了许多隐含的设计决策，下表使其显而易见。

请注意，构建目标时有许多选择。这是比较不同模型时的主要问题。值得注意的是，仅仅获取更多数据并不更好，因为发生在更早时间的事件往往对未来事件的预测能力较弱。这引入了与训练窗口相关的噪声-信号问题。

TSS 指标

为了解决前面提到的问题，即模型具有 99% 的准确性但零召回率，我们引入了一个新的统计指标称为真正技能统计 (TSS)，其定义为真阳性率与假阳性率之差。TSS 奖励真阳性的同时也惩罚假阳性。

构建尾部模型

由于耀斑的稀有性，如果我们使用以下风险目标，我们会发现无太阳耀斑的常见事件主导了损失项。罕见事件几乎不贡献，因为它们发生的次数太少，即使它们是我们试图预测的最相关事件。模型可以很好地学习分布的大部分，而对极端事件的学习却很少，而这些正是我们感兴趣的。这就是为什么考虑尾部优化是有意义的。

目标/经验风险（大多数机器学习最小化的内容）

我们可以通过说我们的目标是频率加权的来更准确地描述这个问题，这意味着频繁事件主导损失项，而较少发生（稀有）的事件贡献最少，尽管这是我们模型需要学习的内容。

美国宇航局的太阳动力学观测站于 2014 年 2 月 24 日捕捉到了一个 X4.9 级太阳耀斑的初始时刻，在多种波长下表现为太阳左边缘的明亮爆发。耀斑在东部标准时间晚上 7 点 49 分达到峰值；可见活跃区域的日冕中存在热等离子体环。图片来源：NASA/SDO。许可：NASA 图像使用政策公共领域。

因此，我们的模型可以从主要稀有事件中学习。我们可以为连续变量（例如软 X 射线通量）设置一个常数阈值，任何测量耀斑严重程度的变量都可以工作。我们将目标设置为阈值与我们观察到的耀斑严重程度变量之间的差异，并仅使用分布尾部的数据。

然后我们建模的数据将是：

使用 Transformer

我们现在可以使用 Transformer 将原始模型和尾部模型结合起来，以实现更健壮的解决方案，理想情况下它既能学习稀有事件阈值以下的情况，也能学习以上的情况。换句话说，我们希望模型学习离散函数的起源以及尾部模型定义的超额风险形状。为此，我们可以使用带有不同头部的 Transformer。模型可以从磁历史数据开始，并将其编码为表示 _h_；不同的头部可以估计不同的量，如耀斑概率、不确定性尾部超越和前兆信号。

分类头部，它估计给定数据时目标为 1 的概率，通常用二元交叉熵训练，可能加权以考虑类别不平衡。

我们可以使用广义帕累托分布（GPD），它为超额值（即我们的尾部分布）提供了一个紧凑的模型。在这里，σ 控制尺度参数，ξ 控制尾部的厚度。变换器生成最近太阳状态的表示 _h_，并将该表示映射到 GPD 参数上，因此不同的磁场历史意味着同一个活动区域（黑子）具有不同的尾部分布。

完整的目标结合了两个预测任务。分类项教导模型估计是否会发生超过选定阈值的耀斑，而尾部项则教导模型在越过该阈值后，超额严重程度会是什么样子。这一点很重要，因为模型不仅需要学习“是否有耀斑”，还应该学习一旦进入分布的危险部分，事件可能有多大。

综合损失

分类损失

加权分类损失

2011年9月24日，美国宇航局拍摄的太阳上的黑子AR 1302。美国宇航局描述这个活动区域在太阳周期24期间产生了大型太阳耀斑。

NASA, _Sunspots 1302 Sep 2011 by NASA.jpg_, 2011年9月24日, 经由 Wikimedia Commons. 公共领域

结论

当使用变换器对非常罕见的事件进行良好预测时，仅仅插入数据并最小化损失函数是不够的。在预测太阳耀斑时，必须首先对数据应用定位和特征工程的技术。然后我们需要指定一个能够区分正负事件的模型目标。我们必须选择一个适当的指标，既能奖励真阳性又能惩罚假阳性。此外，由于巨大的类别不平衡，使用广义帕累托分布来建模超过阈值的超额值的尾部模型是有意义的。这些技术和损失函数可以作为变压器的不同头部，该变压器不仅能进行预测和估计，还能学习一旦进入分布的危险部分，事件可能有多大。我们从中得到的是改进的预测性能和更好的指定模型。

* *

网站|领英|GitHub

作者