DC娱乐网

4月24日,深度求索公司正式上线并开源了其全新系列模型DeepSeek-V4的预

4月24日,深度求索公司正式上线并开源了其全新系列模型DeepSeek-V4的预览版本。该模型最引人注目的特性是原生支持100万token的超长上下文,这相当于能一次性处理约三本《三体》体量的长篇文本。为了实现这一突破,DeepSeek-V4采用了一种全新的注意力机制,在token维度进行压缩,并结合了DSA稀疏注意力技术。这不仅实现了全球领先的长上下文处理能力,还大幅降低了对计算资源和显存的需求。
本次发布的预览版包含两个模型:DeepSeek-V4-Pro和DeepSeek-V4-Flash。其中,V4-Pro专为复杂逻辑、深度推理及高性能智能体场景打造,在代码生成等任务上交付质量已接近顶尖闭源模型。V4-Flash则主打高性价比与高吞吐效率,在简单推理任务上表现与Pro版相当。目前,API服务已同步更新,开发者可通过修改模型名称参数进行调用。尽管官方坦言其能力仍落后于部分前沿闭源模型,但DeepSeek-V4在长上下文和推理性能上的显著提升,无疑为开源社区和广大开发者带来了新的强大工具。