马斯克很推崇扩散模型diffusion,那么扩散模型和Transformer模型的区别是什么呢? Transformer的核心是注意力机制,通过捕捉数据之间长距离依赖关系,提高自然语言和视觉等领域的性能。例如:当你看一张脸时,并不会记住这张脸全部信息,而是关注焦点,比如眼睛和嘴巴。 而diffusion的核心是马尔可夫链,通过逐步去噪声的过程,从一个随机分布中生成目标分布的样本。例如:假如有一张脸的照片,逐步添加噪点直到不可认,再通过神经网络逆向去噪,还原成一张脸,最终获得数据潜在分布的结构。马尔可夫链,因安德烈•马尔可夫(A.A.Markov,1856-1922)得名,是数学中具有马尔可夫性质的离散时间随机过程。该过程中,在给定当前知识或信息的情况下,过去(即当期以前的历史状态)对于预测将来(即当期以后的未来状态)是无关的。马尔可夫链是随机变量X_1,X_2,X_3...的一个数列。这些变量的范围,即他们所有可能取值的集合,被称为“状态空间”,而X_n的值则是在时间n的状态。如果X_{n+1}对于过去状态的条件概率分布仅是X_n的一个函数,则P(X_{n+1}=x|X_0, X_1, X_2, \ldots, X_n) = P(X_{n+1}=x|X_n).这里x为过程中的某个状态。上面这个恒等式可以被看作是马尔可夫性质。 一个可参考的思路,微软亚洲研究院将transformer和diffusion相结合,生成了新的扩散模型Dit。Dit使用transformer作为decoder和encoder的主干,具备更高的效率和可扩展性,是目前最好的扩散模型。 自动驾驶的一个很重要的核心是使用各个传感器(相机视觉,雷达)的数据生成BEV(所谓鸟瞰感知),从而规划、控制、预测行人和其他车辆的行为,然而传感器数据都带有各种噪音,我们通常会合成带有【有害噪声】的 BEV 表达。而Diffusion作为生成式算法,天然具有【去噪音】的优势,可以取代由前特斯拉的技术大牛Karpathy开发的基于transformer的生成模型,从而以【更低计算成本】生成自动驾驶的BEV感知。
马斯克很推崇扩散模型diffusion,那么扩散模型和Transformer模型
豪天聊社会
2023-07-02 12:54:03
0
阅读:1