DeepSeek:推出一种全新注意力机制NSA驱动:2025年2月18日盘后消

野比小狗 2025-02-19 09:35:28

DeepSeek:推出一种全新注意力机制 NSA

驱动:2025年2月18日盘后消息,DeepSeek 官方发布了一篇关于NSA的纯技术论文报

告,使用 NSA 预训练的模型超过了全注意力模型。

NSA 介绍:是一种与硬件高度适配并可原生训练的稀疏注意力机制,专为超快长上下文训

练与推理设计。核心组成包括动态分层稀疏策略、粗粒度的 token 压缩、细粒度的 token选

择。

NSA 效果:通过针对现代硬件的优化设计,NSA 在保证性能的同时显著提升了推理速度,

并有效降低了预训练成本。在通用基准测试中达到了全注意力的性能,长上下文评估中的建

模能力更胜一筹,推理能力得到增强,同时计算延迟显著降低,在64K 长文本场景下,NSA

实现解码速度提升11.6倍、前向传播9倍加速、反向传播6倍加速。

0 阅读:33
野比小狗

野比小狗

感谢大家的关注