[LG]《AdaGradMeetsMuon:AdaptiveStepsi

爱生活爱珂珂 2025-09-08 06:35:25

[LG]《AdaGrad Meets Muon: Adaptive Stepsizes for Orthogonal Updates》M Zhang, Y Liu, H Schaeffer [University of California, Los Angeles] (2025)

AdaGO:结合AdaGrad自适应步长与Muon正交更新的高效优化算法

• Muon优化器通过正交化动量更新矩阵权重,已在大规模语言模型训练中展现优异性能,但学习率调节尚无定论。

• AdaGO融合了基于梯度范数的AdaGrad步长与正交更新方向,既保持更新方向的正交性(等同于谱范数下降方向),又能根据累积梯度调整步长,适应复杂优化景观。

• 实现仅需在Muon基础上额外维护一个标量变量(累积梯度平方范数),计算和内存开销极低。

• 理论上,AdaGO在非凸优化中,满足标准光滑性与无偏有界方差噪声假设,达成最优收敛率:随机情形下收敛速率为O(T^{-1/4}),确定性情形达O(1/\sqrt{T})。

• 实验涵盖CIFAR-10图像分类与函数回归任务,结果显示AdaGO明显优于Muon和Adam,不仅训练更快且泛化性能更好。

心得:

1. 正交化更新改变了优化动力学,传统固定学习率难以兼顾初期快速收敛与后期稳定性,梯度范数驱动的自适应步长实现了动态平衡。

2. 保持更新方向正交性,避免了方向扭曲,保证了更新的谱范数最优属性,提高了优化路径效率。

3. 通过限制累积梯度范数避免噪声放大,AdaGO展现出对梯度噪声的自然适应能力,增强了算法鲁棒性。

更多细节请见🔗arxiv.org/abs/2509.02981

机器学习优化深度学习自适应优化正交更新Muon优化器AdaGrad

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注