[LG]《Beyond Single Tokens: Distilling Di

[LG]《Beyond Single Tokens: Distilling Discrete Diffusion Models via Discrete MMD》E Hoogeboom, D Ruhe, J Heek, T Mensink… [Google DeepMind] (2026)

在离散扩散模型领域，将多步采样压缩为少步生成是一个悬而未决的难题。过去的方法受困于离散空间无法传递梯度，本质原因是令牌采样的独立性假设切断了分布匹配所需的反向信号，导致蒸馏后模型要么质量崩塌，要么多样性丢失。

本文的核心洞见是：把"离散输出的差异"重新看作"对数概率空间中的教师-辅助模型差值信号"。由此，用软概率向量替代硬采样、并交替优化生成器与辅助模型这一关键操作使问题得以解开——生成器被迫压缩其因子化输出熵来隐式建立跨令牌相关性，而无需改变模型架构。

这项工作真正留下的遗产是：一套将连续MMD蒸馏原理迁移至离散空间的通用框架，以及一个比生成困惑度更可靠的评估指标——梯度矩。它为后来者打开的新门是：离散扩散模型可在十余步内超越其教师，使扩散语言模型的推理成本首次与自回归模型具备可比性。但尚未跨过的门槛是：蒸馏后的模型质量最终仍受限于教师上界，且与标准自回归模型之间的性能差距依然存在。

arxiv.org/abs/2603.20155

机器学习人工智能论文 AI创造营

DC娱乐网

[LG]《Beyond Single Tokens: Distilling Di

热门分类