来自Nous Research的酷想法
elvis(@omarsar0)219 字 (约 1 分钟)
80
Lighthouse Attention是一种新的预训练加速方法,通过在训练过程中使用次二次复杂度的包装器来加快长上下文预训练,最终在部署时移除该包装器,从而在推理阶段无需额外的架构成本。
入选理由:Lighthouse Attention通过在训练期间引入一个分层、无梯度的选择层来压缩和解压缩查询、键和值,从而加速长上下文预训练。
精选推文#Lighthouse Attention#长上下文预训练#机器学习#深度学习英文
