DeepSeek代码库惊现MODEL1新模型，疑似V4架构曝光

1月21日，在DeepSeek-R1发布一周年之际，其GitHub代码库更新意外曝光代号为"MODEL1"的新模型。该模型在FlashMLA优化库的114个文件中出现28次，被列为与V3.2并行的独立分支。技术分析显示，MODEL1采用全新的512维头维度设计，相比V3系列的576维MLA架构实现"标准化回归"。代码中新增了大量针对英伟达Blackwell架构（SM100）的优化接口，在B200 GPU上稀疏算子已实现350TFlops算力利用率。 DeepSeek引入了"Token-level Sparse MLA"新机制，支持FP8 KV Cache混合精度存储，可在长文本场景下动态忽略不重要Token。代码还显示新模型可能整合了Value Vector Position Awareness（VVPA）和Engram记忆模块技术。此前有消息称DeepSeek计划在2月中旬春节前后发布下一代旗舰模型。Hugging Face在周年纪念博客中指出，R1模型已成为该平台获赞最多的开源模型，推动中国AI从"追随者"转向"范式定义者"。

DC娱乐网

DeepSeek代码库惊现MODEL1新模型，疑似V4架构曝光

热门分类