DeepSeek下一代技术提前曝光梁文锋署名论文获ACL2025最佳论文奖在AC

量子位看科技 2025-07-31 12:24:15

DeepSeek下一代技术提前曝光梁文锋署名论文获ACL2025最佳论文奖

在ACL 2025的颁奖典礼上,由DeepSeek梁文锋作为通讯作者、与北京大学等联合发表的论文荣获最佳论文奖。

这是在总投稿量翻倍至8360篇的情况下脱颖而出,技术硬实力可见一斑。【图1】

这项NSA机制最大的亮点是:让大模型处理长文本的速度提升11倍,性能还更强。

一作袁境阳在会上发表演讲,透露这项技术可以把上下文长度扩展到1百万tokens,将被应用到下一个前沿模型中。

结合论文发表于DeepSeek-R1推出之后,实验设置中也提到使用了DeepSeek-R1的蒸馏数据来微调了新的模型。

大家纷纷猜测,这项技术将被用于下一代DeepSeek-V4以及DeepSeek-R2。【图2】

技术上,他们提出了原生稀疏注意力(NSA)机制,通过算法与硬件的协同优化,直接把长文本处理速度提升了11倍。

更厉害的是,性能不仅没降反而还超越了传统的全注意力模型。

0 阅读:0
量子位看科技

量子位看科技

感谢大家的关注