DeepSeek在欧美也火了之后自然也出现了一些质疑的声音,其中一个阴谋论是“DeepSeek 绝对不是如其声称的那样只用了2000张H800GPU,550 万美元的成本训练出来的”,甚至有些更夸张的言论说这是中国要搞垮美国股市的阴谋。。
这种背景下博主Eryk 对DeepSeek V3的训练成本做了推导和估算,论证了 Deepseek-V3 论文中声称的 550 万美元训练成本(即 278.8 万 GPU 小时)是合理的。详见这篇博文:planetbanatt.net/articles/v3fermi.html
作者首先估算了模型训练所需的浮点运算次数 (FLOPs),然后考虑了使用 H800 和 MoE 架构带来的额外开销,以及混合精度训练和论文中提到的基础设施优化带来的效率提升。最终得出结论,Deepseek 使用 278.8 万 GPU 小时在 14.8 万亿个 token 上训练出 6710 亿参数的 MoE 模型是可信的。同时也强调了下对该声明的质疑往往源于对“550 万美元”含义的误解,即将其等同于整个项目的总成本,而实际上这指 GPU 使用时间的费用。
当然DeepSeek 本身是不需要对这种言论自证清白的。