来自Nous Research的酷想法

elvis(@omarsar0)

elvis(@omarsar0)2026年5月12日

来自Nous Research的酷想法

8.0Score

TL;DR · AI 摘要

Lighthouse Attention是一种新的预训练加速方法，通过在训练过程中使用次二次复杂度的包装器来加快长上下文预训练，最终在部署时移除该包装器，从而在推理阶段无需额外的架构成本。

核心要点

Lighthouse Attention通过在训练期间引入一个分层、无梯度的选择层来压缩和解压缩查询、键和值，从而加速长上下文预训练。
该方法可以在训练结束前的短暂恢复阶段移除包装器，确保部署的模型仍运行普通的注意力机制。
初步实验表明，Lighthouse Attention比完全注意力基线更快地完成总训练时间，并且最终损失更低。

结构提纲

按章节快速跳转。

§引言
介绍Lighthouse Attention的基本概念和背景。
·核心机制
Lighthouse Attention通过在训练过程中使用次二次复杂度的包装器来加速长上下文预训练。
·恢复阶段
在训练结束前的短暂恢复阶段，Lighthouse Attention的包装器被移除，确保部署的模型仍运行普通的注意力机制。
·实验结果
初步实验表明，Lighthouse Attention比完全注意力基线更快地完成总训练时间，并且最终损失更低。

思维导图

用一张图看清主题之间的关系。

查看大纲文本（无障碍 / 无 JS 友好）

Lighthouse Attention
- 核心机制
  - 次二次复杂度包装器
  - 分层、无梯度的选择层
- 恢复阶段
  - 移除包装器
  - 普通注意力机制
- 实验结果
  - 更快的总训练时间
  - 更低的最终损失

金句 / Highlights

值得收藏与分享的关键句。

Lighthouse Attention通过在训练期间引入一个分层、无梯度的选择层来压缩和解压缩查询、键和值，从而加速长上下文预训练。
— 第 2 段
⬇︎ 下载 PNG 𝕏 分享到 X
该方法可以在训练结束前的短暂恢复阶段移除包装器，确保部署的模型仍运行普通的注意力机制。
— 第 3 段
⬇︎ 下载 PNG 𝕏 分享到 X
初步实验表明，Lighthouse Attention比完全注意力基线更快地完成总训练时间，并且最终损失更低。
— 第 4 段
⬇︎ 下载 PNG 𝕏 分享到 X

#Lighthouse Attention#长上下文预训练#机器学习#深度学习

打开原文

Nous Research 的酷想法：Lighthouse Attention

想象一下，如果你可以在部署前通过一个次二次包装器加速长上下文预训练，那会怎么样？

这就是 Lighthouse Attention 的核心思想。

该方法用一个分层的、无梯度的选择层包裹普通的 SDPA，这个选择层对查询、键和值进行对称地压缩和解压缩，同时保持从左到右的因果关系。至关重要的是，在训练接近尾声时，它可以通过一个短暂的恢复阶段被移除，因此部署的模型仍然可以运行标准注意力机制，而不会增加推理时的架构成本。初步的大规模语言模型实验报告称，其总训练时间更快且最终损失低于全注意力基线。为什么这很重要？大多数高效的注意力工作要么改变了部署时的架构，要么为此付出质量上的代价。一个仅在训练期间使用的包装器，在经过干净的恢复阶段后依然有效，避开了这两种情况。如果这种方法能够扩展，那么它将成为长上下文预训练中重要的训练时间加速手段。论文：arxiv.org/abs/2605.06554 在我们的学院学习如何构建有效的 AI 代理：academy.dair.ai