优于专家的验证在曙光千卡上跑通了？！昨天在曙光的发布会上，除了scaleX40

优于专家的验证在曙光千卡上跑通了？！
昨天在曙光的发布会上，除了scaleX40与以往超节点不同，让人大受震撼外。现场有一家头部AI研究院的分享让我觉得很感兴趣。他们用曙光千卡集群做了一系列验证，结论很有意思：通过自动调优，可以实现优于专家的并行优化策略。

具体怎么做的？他们在演讲里拆解得挺细。用FlagOS开源技术栈，在曙光千卡集群上跑Qwen3-32B-AR多模态模型训练。通过多维剪枝、联合优化、基于历史剪枝等技术，自动搜索最优的并行策略。结果是在1024卡上实现了99.63%的扩展效率，从头预训练的Loss曲线与NV保持一致。
我会后特意找有相关的研究人员问了问，他跟我解释，以前调并行策略，得靠专家手工调参，费时费力还不一定最优。现在通过自动化工具，能在曙光千卡集群上跑出比专家还好的效果，这背后是软件栈和硬件的深度协同。

这个研究院还提到一个细节，他们开发的FlagGems统一算子库，已经支持7家国产芯片厂商适配，87%的算子性能达到或超过CUDA。在曙光千卡上，端到端训练效果与NV千卡基线保持一致。
这个结论挺重要的。说明国产算力不仅在硬件参数上追赶，在软件生态和工程优化上也正在补齐短板。

同行的朋友在现场感慨，以前总觉得国产算力能用但不好用，需要花大量时间调优。但这个研究院验证说明，在软件栈的加持下，国产千卡集群已经可以做到与NV持平的效果。也是给行业吃了定心丸。
国产芯片超节点 AI计算

DC娱乐网

优于专家的验证在曙光千卡上跑通了？！昨天在曙光的发布会上，除了scaleX40

热门分类

优于专家的验证在曙光千卡上跑通了？！ 昨天在曙光的发布会上，除了scaleX40

热门分类

优于专家的验证在曙光千卡上跑通了？！昨天在曙光的发布会上，除了scaleX40