DC娱乐网

[LG]《Manifold Steering Reveals the Share

[LG]《Manifold Steering Reveals the Shared Geometry of Neural Network Representation and Behavior》D Wurgaft, C Rager, M Kowal, V Shyam… [GOODFIRE] (2026)

在神经网络表征控制中,线性 steering 常把激活当作平直空间。它的问题是会穿过低密度区域,导致输出跳跃、模糊或不自然,本质原因是忽略概念在表征中的弯曲几何。

本文的核心洞见是:把 steering 重新看作沿激活流形行走,而不是沿单一方向推拉。由此,按流形测地线干预,使行为分布也沿自然输出流形平滑移动。

这项工作真正留下的遗产是把“找方向”改写为“找几何”。它为可控解释打开的新门是用表征流形约束行为轨迹,但尚未跨过的门槛是流形拟合成本与复杂开放任务验证。

arxiv.org/abs/2605.05115 机器学习 人工智能 论文 AI创造营