万卡都有,但不是一个集群,换句话说他们直接通信是柜间传统以太网技术链接,华为这个是机柜之间采用超高速互联,NPU使用远端他机内存像本地使用一样快。大模型训练时,如何实现海量数据在不同节点间传输是个大难题,直接影响了训练时长。华为这个直接把一堆机柜组成一个超节点,软件感受不到NPU,内存实际在不在本地了,简单理解成这些服务器组成了一个完整的超级计算机,内部通过光纤和新的新通信技术超高速互联了。
万卡都有,但不是一个集群,换句话说他们直接通信是柜间传统以太网技术链接,华为这个
小轩评情
2025-05-28 00:38:54
0
阅读:0