DC娱乐网

混合注意力与mHC如何重塑长上下文效率

DeepSeek-V4 终于正式发布了,号称百万 token 超长上下文,单 token 推理成本只有上一代 V3.2 的 27%,还能做到快 10 倍、巨省显存。它是怎么做到的?注意力结构做了什么修改?KV Cache 又是怎么管理的?

今天我们就结合官方技术报告,把v4的核心架构、基础设施、预训练和后训练的方法一次性梳理清楚。

这篇技术报告很坦诚:不仅把架构全盘公开,还如实写明 ——Kimi K2.6、GLM-5.1 部分结果为空是因为 API 繁忙调不通,GPT-5.4 没测 1M 上下文是因为 API 故障,甚至大方承认对比 GPT-5.4、Gemini-3.1-Pro 仍有 3–6 个月差距,不吹不掩,让人好感度拉满。

技术报告的最后,DeepSeek 也列出了接下来的三大未来方向,很有前瞻性:

1️⃣更激进的 KV 压缩率。现在 V4 已经把 1M 上下文的 KV 缓存压到传统方案的 2% 左右,已经很夸张了,但团队还想继续往上卷 —— 意味着未来几百万、甚至千万 token 上下文,开销可能还能再砍一半。

2️⃣把 mHC 扩展到非 Transformer 架构。这步野心很大。mHC 本来是为 Transformer 设计的稳定残差结构,如果能用到其他下一代架构,相当于给 “更深、更稳、更易训练” 提供了一套通用的稳定性底座,可能会改变未来大模型的基础结构设计。

3️⃣让 Muon 优化器适配更大学习率。Muon 本来就比 AdamW 更稳、收敛更快,如果能配合更大学习率狂飙,训练速度还能再上一个台阶,训练成本继续往下打。这也说明 DeepSeek 未来会在训练效率这条路上死磕到底。

接下来这几个方向一旦落地,大模型的速度、成本、长度天花板,可能又要被重新定义一波。