DeepSeek下一代技术提前曝光梁文锋署名论文获ACL2025最佳论文奖
在ACL 2025的颁奖典礼上,由DeepSeek梁文锋作为通讯作者、与北京大学等联合发表的论文荣获最佳论文奖。
这是在总投稿量翻倍至8360篇的情况下脱颖而出,技术硬实力可见一斑。【图1】
这项NSA机制最大的亮点是:让大模型处理长文本的速度提升11倍,性能还更强。
一作袁境阳在会上发表演讲,透露这项技术可以把上下文长度扩展到1百万tokens,将被应用到下一个前沿模型中。
结合论文发表于DeepSeek-R1推出之后,实验设置中也提到使用了DeepSeek-R1的蒸馏数据来微调了新的模型。
大家纷纷猜测,这项技术将被用于下一代DeepSeek-V4以及DeepSeek-R2。【图2】
技术上,他们提出了原生稀疏注意力(NSA)机制,通过算法与硬件的协同优化,直接把长文本处理速度提升了11倍。
更厉害的是,性能不仅没降反而还超越了传统的全注意力模型。