DeepSeek联合北大发布DSpark
据媒体报道,近日DeepSeek团队联合北京大学正式发布名为《DSpark》的研究论文。
表示现有并行“草稿生成”方式虽然能一次生成更长token,但由于token间关联不足,容易导致被拒绝比例上升,并浪费验证算力。
针对这种情况,DSpark引入了半自回归结构,在并行生成骨干上加入轻量级顺序模块,以增强token之间的依赖关系,提高草稿质量。


DeepSeek联合北大发布DSpark
据媒体报道,近日DeepSeek团队联合北京大学正式发布名为《DSpark》的研究论文。
表示现有并行“草稿生成”方式虽然能一次生成更长token,但由于token间关联不足,容易导致被拒绝比例上升,并浪费验证算力。
针对这种情况,DSpark引入了半自回归结构,在并行生成骨干上加入轻量级顺序模块,以增强token之间的依赖关系,提高草稿质量。

