这篇论文介绍了一种名为NSA(Natively Sparse Attention)的新型稀疏注意力机制,旨在提高长上下文建模的效率,同时保持模型的性能。
1. 研究背景:问题:长上下文建模对于下一代语言模型至关重要,但标准的注意力机制由于其高计算成本而带来了显著的挑战。难点:现有的稀疏注意力方法在实际部署中往往未能实现预期的加速效果,主要因为它们在推理阶段有效,但在训练阶段缺乏支持。相关工作:现有的稀疏注意力方法包括KV缓存驱逐方法、基于块的选择方法和采样、聚类或哈希选择方法,但这些方法在实际应用中存在局限性。