[LG]《AnentropyformulafortheDeepLin

爱生活爱珂珂 2025-09-13 06:40:39

[LG]《An entropy formula for the Deep Linear Network》G Menon, T Yu (2025)

深度线性网络(DLN)的几何热力学新解读,开辟深度学习训练动力学的数学视野。

• 利用李群作用揭示过参数化结构,平衡流形被群轨道叶分解,定义并精确计算玻尔兹曼熵。

• 建立参数空间到观测空间的黎曼子测地映射,体现训练动态的内在黎曼几何,熵公式与随机矩阵理论紧密相关。

• 通过正交基构造与切空间正交化,显式对切空间度量对角化,采用切比雪夫多项式谱理论完成复杂度极高的矩阵正交与体积计算。

• 证明训练过程中的梯度流为黎曼梯度流,熵引入的随机扰动对应于群作用上的布朗运动,支持熵正则化及隐式偏置的动力学机制。

• 提出深度学习隐式正则化的动力学几何根源,结合信息论与统计力学,阐释训练过程的热力学平衡态与微观状态统计。

• 结果适用于任意深度与宽度,揭示深度对训练几何结构和优化路径的深刻影响,兼容随机梯度下降的未来研究方向。

心得:

1. 深度学习的隐式偏置源自参数空间的黎曼几何结构及对称群作用,非单纯统计学习理论可解释。

2. 训练动态本质是一种热力学过程,熵作为状态数的度量,为选择性收敛提供了数学依据。

3. 过参数化通过群轨道叶的结构整合,形成了高维流形上的梯度动力学,赋予了深度网络训练独特的几何稳定性。

点此了解更多🔗 arxiv.org/abs/2509.09088

深度学习黎曼几何随机矩阵理论隐式正则化统计力学

0 阅读:0
爱生活爱珂珂

爱生活爱珂珂

感谢大家的关注