DeepSeek：推出一种全新注意力机制NSA驱动：2025年2月18日盘后消

野比小狗 2025-02-19 09:35:28

DeepSeek：推出一种全新注意力机制 NSA

驱动：2025年2月18日盘后消息，DeepSeek 官方发布了一篇关于NSA的纯技术论文报

告，使用 NSA 预训练的模型超过了全注意力模型。

NSA 介绍：是一种与硬件高度适配并可原生训练的稀疏注意力机制，专为超快长上下文训

练与推理设计。核心组成包括动态分层稀疏策略、粗粒度的 token 压缩、细粒度的 token选

择。

NSA 效果：通过针对现代硬件的优化设计，NSA 在保证性能的同时显著提升了推理速度，

并有效降低了预训练成本。在通用基准测试中达到了全注意力的性能，长上下文评估中的建

模能力更胜一筹，推理能力得到增强，同时计算延迟显著降低，在64K 长文本场景下，NSA

实现解码速度提升11.6倍、前向传播9倍加速、反向传播6倍加速。

0 阅读：33

感谢大家的关注

作者最新文章

1

2

周末没有什么特别的消息，发酵比较厉害的大致是以下几个方面：1.人形机器人继续发酵

3

我现在越发觉得跨年的题材是低空经济。

4

金融异动：（第一财经）原中国央行调查统计司司长盛松成预计，央行今年可能择机进一步

5

早盘消费医药，机器人较强，随后轮动金融，互金。都是一些没持续性的玩意儿。

6

每天都这样轮动，很焦虑

7

8

干了这个，为了荣耀

9

炒东方，炒蛇，炒麻将，炒红字。今天轮到龙[苦涩][苦涩]你们到底在炒什么

10

国家监管总局企业名称申报登记公告(2024年11月22日)显示:荣耀终端有限公司

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

财经TOP

1

7月7日，全天封板复盘。

2

早就该收拾他了!李嘉诚的长子李泽钜落选特首顾问团成员，李泽钜落选，是因为特首顾问

3

7月22日，全天封板复盘。

4

6月24日，全天封板复盘。

5

当了31年老大的三峡工程被雅鲁藏布江工程全面超越。数据如下：投资：三峡约248

6

太气魄了！洪森的豪宅，称为宫殿更为名副其实，占地面积约4.2公顷，建筑面积约15

7

这种情况下保险公司会赔吗？还是自认倒霉呢?

8

$御银股份sz002177$昨天看到那榜真的笑死了，果然都是比手速。[笑cr

9

7月16日游资龙虎榜

10

7月18日游资龙虎榜

财经最新文章

1

雅江概念的个股也迎来了首次大分歧，板块中位股，早上就开始高开低走，坑了不少人，稍

2

明天A股怎么走？到底是涨是跌？莎莎做了一个大胆的预判，为什么这么预判？三个具体理

3

指数不跌，个股趴地；账户不看，还能安心睡觉；一看账户，才发现比3500点还惨。现

4

股市虽然经历了8轮的牛市，但总体来说是牛短熊长，大部分时间处于熊市中，即使偶遇牛

5

为什么有钱人炒股更容易赚钱？不是他们运气好，而是规则就这么定的。举个例子：一个人

6

当牛市的号角在资本市场吹响，总有一个板块像被按下加速键般绝尘而去——券商股的每一

7

东方大国经济大转型，全面反内卷，真结束了！一夜之间，光伏、水泥、钢铁、猪肉、

8

接近2万亿成交量！还在有人怀疑是不是牛市吗？继续耐心持有吧，这轮牛市行情还未结

9

7月22日，全天封板复盘。

10

🌛必须要跟巴基斯坦好好谈谈了，刚在中国的帮助下渡过了经济危机，转头就把国内