[LG]《An entropy formula for the Deep Linear Network》G Menon, T Yu (2025)
深度线性网络(DLN)的几何热力学新解读,开辟深度学习训练动力学的数学视野。
• 利用李群作用揭示过参数化结构,平衡流形被群轨道叶分解,定义并精确计算玻尔兹曼熵。
• 建立参数空间到观测空间的黎曼子测地映射,体现训练动态的内在黎曼几何,熵公式与随机矩阵理论紧密相关。
• 通过正交基构造与切空间正交化,显式对切空间度量对角化,采用切比雪夫多项式谱理论完成复杂度极高的矩阵正交与体积计算。
• 证明训练过程中的梯度流为黎曼梯度流,熵引入的随机扰动对应于群作用上的布朗运动,支持熵正则化及隐式偏置的动力学机制。
• 提出深度学习隐式正则化的动力学几何根源,结合信息论与统计力学,阐释训练过程的热力学平衡态与微观状态统计。
• 结果适用于任意深度与宽度,揭示深度对训练几何结构和优化路径的深刻影响,兼容随机梯度下降的未来研究方向。
心得:
1. 深度学习的隐式偏置源自参数空间的黎曼几何结构及对称群作用,非单纯统计学习理论可解释。
2. 训练动态本质是一种热力学过程,熵作为状态数的度量,为选择性收敛提供了数学依据。
3. 过参数化通过群轨道叶的结构整合,形成了高维流形上的梯度动力学,赋予了深度网络训练独特的几何稳定性。
点此了解更多🔗 arxiv.org/abs/2509.09088
深度学习黎曼几何随机矩阵理论隐式正则化统计力学