DC娱乐网

优于专家的验证在曙光千卡上跑通了?! 昨天在曙光的发布会上,除了scaleX40

优于专家的验证在曙光千卡上跑通了?! 昨天在曙光的发布会上,除了scaleX40与以往超节点不同,让人大受震撼外。现场有一家头部AI研究院的分享让我觉得很感兴趣。他们用曙光千卡集群做了一系列验证,结论很有意思:通过自动调优,可以实现优于专家的并行优化策略。 具体怎么做的?他们在演讲里拆解得挺细。用FlagOS开源技术栈,在曙光千卡集群上跑Qwen3-32B-AR多模态模型训练。通过多维剪枝、联合优化、基于历史剪枝等技术,自动搜索最优的并行策略。结果是在1024卡上实现了99.63%的扩展效率,从头预训练的Loss曲线与NV保持一致。 我会后特意找有相关的研究人员问了问,他跟我解释,以前调并行策略,得靠专家手工调参,费时费力还不一定最优。现在通过自动化工具,能在曙光千卡集群上跑出比专家还好的效果,这背后是软件栈和硬件的深度协同。 这个研究院还提到一个细节,他们开发的FlagGems统一算子库,已经支持7家国产芯片厂商适配,87%的算子性能达到或超过CUDA。在曙光千卡上,端到端训练效果与NV千卡基线保持一致。 这个结论挺重要的。说明国产算力不仅在硬件参数上追赶,在软件生态和工程优化上也正在补齐短板。 同行的朋友在现场感慨,以前总觉得国产算力能用但不好用,需要花大量时间调优。但这个研究院验证说明,在软件栈的加持下,国产千卡集群已经可以做到与NV持平的效果。也是给行业吃了定心丸。 国产芯片 超节点 AI计算