[LG]《Introspective Diffusion Language Mo

[LG]《Introspective Diffusion Language Models》Y Yu, Y Jian, J Wang, Z Zhou… [Together AI] (2026)

在扩散语言模型领域，"并行生成"这一承诺长期落空——即便能并行解码，生成质量始终与自回归模型存在显著差距。过去的方法受困于一个被忽视的根本缺陷：模型生成的token与它自身"反思"时认可的token之间存在分布鸿沟，本质原因是双向去噪训练从未教会模型认可自己的输出。

本文的核心洞见是：把"让模型同意自己的生成"重新看作训练目标而非评估指标。由此，将因果掩码+logit偏移+全遮掩训练三者合一这一关键操作，使模型在单次前向传播中同时完成生成与自省——生成位置输出候选token，干净位置输出因果锚点分布用于验证，二者天然对齐。

这项工作真正留下的遗产是：证明了扩散模型的质量瓶颈源于"自洽性缺失"而非架构本身，并以4.5B token的极低训练代价填平了与自回归模型的质量鸿沟。它为后来者打开的新门是一条将现有AR模型低成本转化为高质量并行生成模型的可复现路径；但尚未跨过的门槛是：当并发规模进一步扩大时，自适应步长机制的理论加速上界能否稳定兑现，仍有待更大规模的工程验证。

arxiv.org/abs/2604.11035

机器学习人工智能论文 AI创造营

DC娱乐网

[LG]《Introspective Diffusion Language Mo

热门分类