【神经网络的底层真相:看似处理语言,实则一直在算形状】
快速阅读:神经网络的内部逻辑并非线性,而是由复杂的几何流形构成的。通过理解这些形状而非仅仅拆解特征,我们才能实现对模型的精准控制与发现。
神经网络表面在处理语言,内核其实是在处理形状。
如果把模型看作一台计算机,理解它的表示层级就像理解数据结构一样重要。现在的研究正从拆解碎片化的特征,转向观测整体的几何结构。
目前流行的 SAE 方法倾向于把概念流形打碎成无数互不相关的细小碎片,这反而掩盖了宏观的语义结构。神经网络里的时间、空间、甚至生物标记物,都是沿着弯曲的路径或曲面分布的。
拿星期几为例,它在模型激活空间里是一个圆环。如果你尝试从周一线性移动到周五,中间会经过一堆毫无意义的噪声;但如果你沿着圆环的流形路径走,就能丝滑地从周一过渡到周二。
这种“形状”的控制力极其强大。有观点认为,这种几何视角能直接解决幻觉问题,甚至能从模型中挖掘出训练数据从未明确标注的新知识。比如在生物模型中,通过审视几何结构,研究者发现了能够预测阿尔茨海默症的新型信号。
有网友提到,降维投影可能会丢失关键信息,就像把 3D 的金牛座投影成 2D 的圆环一样。这确实是个挑战。但最终的检验标准在于,我们能否通过干预几何结构,实现对模型行为的精准操控。
既然定位问题本质上是个几何问题,那么解决幻觉,或许只需要找对那个形状。
x.com/GoodfireAI/status/2052420446910644616
