💡 读完 DeepSeek V4 论文后的感想
⚡ 英伟达确实非同凡响。还记得 2024 年人们还在抨击 Blackwell 规格过高,把 FP4 贬低为营销噱头吗?结果这一切都是为下一代模型打下的基础。
🔮 或许英伟达的护城河在于其预判主流大语言模型技术发展轨迹的能力,以及提前 3-5 年在加速器上预新需求的能力,并将这种前瞻性融入产品设计。其他 GPU 公司不会预判需求 —— 它们只会被动应对。
🤝 英伟达和 DeepSeek 是否一直在沟通?看看 6144 FLOPs/Byte 这个数据 —— 我此前一直疑惑英伟达为何如此激进地提升 HBM4 引脚速度,结果发现从 V4 这类模型的角度来看,提高 Rubin 的 HBM4 引脚速度并非 “过度设计”,而是精准平衡的设计。
⚙️ 英伟达再次全力提升 Rubin Ultra 的带宽,这很能说明问题:这意味着 Rubin Ultra 的 FP4 算力相对于 HBM 带宽增长过快,在训练 DeepSeek-V4 这类 MoE 模型时,HBM 带宽可能再次成为瓶颈。
❓ 为什么下一代英伟达芯片要扩大 NVLink 规模?为什么转向 Kyber 架构?
💡 可以理解为这是为了提升互联结构的带宽密度,将已突破阈值的算力拉回到通信友好的平衡状态。
📌 结论是:DeepSeek 论文本质上告诉我们,英伟达当前的芯片设计与 DeepSeek 的模型模式高度契合。如果仅 Blackwell 就能带来如此大的进化,想象一下 Rubin 和 Feynman 将带来什么。
💾 英伟达今年发布的 G3.5 几乎令人难以置信。这是介于本地固态硬盘和对象文件存储之间的几乎全新层级 —— 专为 AI 推理而生 —— 意味着英伟达为 AI 工作负载创造了一个全新的内存层级类别。而在 V4 论文的 3.6.2 节中,DeepSeek 论证了 KV 缓存可以突破 GPU HBM 的限制,永久卸载到固态硬盘存储中。这恰好对应英伟达在 CES 上展示的 ICMS 机架。英伟达精准预判到了这一点 —— 他们预见到 DeepSeek 这类实验室会需要这种方案。