[LG]《Transformers are Bayesian Networks》

[LG]《Transformers are Bayesian Networks》G Coppola [coppola.ai] (2026)

在神经网络领域，「Transformer为何有效」是一个悬而未决的问题。现有解释停留在经验层面——注意力机制学到了什么，FFN记忆了什么——却无法回答「这个计算结构在数学上是什么」。缺乏这一答案，幻觉、可靠性、可验证性等问题便无从精确定义。

本文的核心洞见是：把sigmoid激活函数重新看作概率空间与对数几率空间之间的同构映射。由此，注意力层=收集步骤（AND：将邻节点信念同时写入残差流），FFN层=更新步骤（OR：用对数几率加法计算后验概率），二者严格交替即为Pearl的置信传播算法。对任意权重，这一等价关系成立，并在Lean 4中完成形式化验证。

这项工作真正留下的遗产是：为Transformer提供了一个精确的数学身份——它是贝叶斯网络，而非近似物。它为后来者打开的新门是：在树形知识库上实现可证明无幻觉的推理，以及将幻觉重新定义为「无概念运作的结构性后果」而非工程缺陷。但尚未跨过的门槛是：循环图上的收敛性缺乏理论保证，「接地（grounding）」本身的实现在现实规模知识库中仍是开放挑战。

arxiv.org/abs/2603.17063

机器学习人工智能论文 AI创造营

DC娱乐网

[LG]《Transformers are Bayesian Networks》

热门分类