[LG]《Unifying Local Communications and Local Updates for LLM Pretraining》P Cagnasso, E Belilovsky, E Oyallon [Concordia University & Sorbonne University] (2026)
LLM预训练面临通信瓶颈——All-Reduce同步会因最慢节点受阻,带宽异构时尤其明显。过往去中心化方法要么单步通信(无法利用本地更新累积),要么在多步本地更新下性能急剧退化。本质原因是未能将通信加速机制与本地计算解耦。
本文的核心洞见是:把外层优化器重新看作通信加速器,而非仅仅参数聚合工具。由此,GASLoC将动量机制施加于通信轮次本身,使得稀疏随机peer通信(1-Peer/2-Peer)可与多步本地更新兼容,且谱间隙从χ降至√χ,通信复杂度显著下降。
这项工作真正留下的遗产是首次证明了gossip通信与Local SGD在LLM训练中可实质性融合。它为后来者打开的新门是:在带宽受限场景下,无需全局同步即可达到DiLoCo相当的验证损失,且对带宽掉队节点有天然容错性。但尚未跨过的门槛是:理论仅覆盖同质数据假设,且在32节点以上规模的实际异构环境中的表现仍待验证。
arxiv.org/abs/2606.11081 机器学习 人工智能 论文 AI创造营








