DC娱乐网

DeepSeek代码库惊现MODEL1新模型,疑似V4架构曝光

 1月21日,在DeepSeek-R1发布一周年之际,其GitHub代码库更新意外曝光代号为"MODEL1"的新模型。该模型在FlashMLA优化库的114个文件中出现28次,被列为与V3.2并行的独立分支。 技术分析显示,MODEL1采用全新的512维头维度设计,相比V3系列的576维MLA架构实现"标准化回归"。代码中新增了大量针对英伟达Blackwell架构(SM100)的优化接口,在B200 GPU上稀疏算子已实现350TFlops算力利用率。 DeepSeek引入了"Token-level Sparse MLA"新机制,支持FP8 KV Cache混合精度存储,可在长文本场景下动态忽略不重要Token。代码还显示新模型可能整合了Value Vector Position Awareness(VVPA)和Engram记忆模块技术。 此前有消息称DeepSeek计划在2月中旬春节前后发布下一代旗舰模型。Hugging Face在周年纪念博客中指出,R1模型已成为该平台获赞最多的开源模型,推动中国AI从"追随者"转向"范式定义者"。