DeepSeek:推出一种全新注意力机制 NSA
驱动:2025年2月18日盘后消息,DeepSeek 官方发布了一篇关于NSA的纯技术论文报
告,使用 NSA 预训练的模型超过了全注意力模型。
NSA 介绍:是一种与硬件高度适配并可原生训练的稀疏注意力机制,专为超快长上下文训
练与推理设计。核心组成包括动态分层稀疏策略、粗粒度的 token 压缩、细粒度的 token选
择。
NSA 效果:通过针对现代硬件的优化设计,NSA 在保证性能的同时显著提升了推理速度,
并有效降低了预训练成本。在通用基准测试中达到了全注意力的性能,长上下文评估中的建
模能力更胜一筹,推理能力得到增强,同时计算延迟显著降低,在64K 长文本场景下,NSA
实现解码速度提升11.6倍、前向传播9倍加速、反向传播6倍加速。