梦晨 发自 凹非寺
量子位 | 公众号 QbitAI
新型注意力机制
2025年03月19日
分组查询注意力 (Grouped Query Attention) 是一种在大型语言模型中的多查询注意力 (MQA) 和多头注意力 (MHA) 之间进行插值的方法,它的目标是在保持 MQA 速度的同时实现 MHA 的质量。
这篇文章中,我们将解释GQA的思想以及如何将其转化为代码。
GQA是在论文 GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints paper.中提出,这是一个相当简单和干净的想法,并且建立在多头注意力之上。
2025年03月19日
2025年2月18日,DeepSeek团队发布了原生稀疏注意力机制(Native Sparse Attention,NSA)
2025年03月19日
众所周知,目前的大模型大多基于 Transformer 架构。Transformer 的核心结构是多头自注意力模型(multi-head self-attention model)。
2025年03月19日
这篇论文介绍了一种名为NSA(Natively Sparse Attention)的新型稀疏注意力机制,旨在提高长上下文建模的效率,同时保持模型的性能。
1. 研究背景:问题:长上下文建模对于下一代语言模型至关重要,但标准的注意力机制由于其高计算成本而带来了显著的挑战。难点:现有的稀疏注意力方法在实际部署中往往未能实现预期的加速效果,主要因为它们在推理阶段有效,但在训练阶段缺乏支持。相关工作:现有的稀疏注意力方法包括KV缓存驱逐方法、基于块的选择方法和采样、聚类或哈希选择方法,但这些方法在实际应用中存在局限性。
2025年03月19日
以下是“第 8 天:自注意力机制详解”的详细学习计划,专注于理解 Transformer 中的自注意力(Self-Attention)机制。学习时长为 5 小时,适合在第 6-7 天微调 BERT 的实践基础上,深入掌握其核心技术——自注意力。计划包括理论学习、数学推导和动手计算,确保从概念到实践全面理解。
第 8 天学习计划:自注意力机制详解(5 小时)