[LG]《AnentropyformulafortheDeepLin

[LG]《An entropy formula for the Deep Linear Network》G Menon, T Yu (2025)

深度线性网络（DLN）的几何热力学新解读，开辟深度学习训练动力学的数学视野。

• 利用李群作用揭示过参数化结构，平衡流形被群轨道叶分解，定义并精确计算玻尔兹曼熵。

• 建立参数空间到观测空间的黎曼子测地映射，体现训练动态的内在黎曼几何，熵公式与随机矩阵理论紧密相关。

• 通过正交基构造与切空间正交化，显式对切空间度量对角化，采用切比雪夫多项式谱理论完成复杂度极高的矩阵正交与体积计算。

• 证明训练过程中的梯度流为黎曼梯度流，熵引入的随机扰动对应于群作用上的布朗运动，支持熵正则化及隐式偏置的动力学机制。

• 提出深度学习隐式正则化的动力学几何根源，结合信息论与统计力学，阐释训练过程的热力学平衡态与微观状态统计。

• 结果适用于任意深度与宽度，揭示深度对训练几何结构和优化路径的深刻影响，兼容随机梯度下降的未来研究方向。

心得：

1. 深度学习的隐式偏置源自参数空间的黎曼几何结构及对称群作用，非单纯统计学习理论可解释。

2. 训练动态本质是一种热力学过程，熵作为状态数的度量，为选择性收敛提供了数学依据。

3. 过参数化通过群轨道叶的结构整合，形成了高维流形上的梯度动力学，赋予了深度网络训练独特的几何稳定性。

点此了解更多🔗 arxiv.org/abs/2509.09088

深度学习黎曼几何随机矩阵理论隐式正则化统计力学

0 阅读：0

美国玩不起！输急眼了，再次对中国航天“关上大门”美国宇航局NASA最近把门关