谷歌的超快文本生成新技术——Gemini Diffusion,实际就是把扩散模型用到了文本生成上。 那么,扩散模型(Diffusion model)和传统自回归模型(Autoregressive model),在生成机制上有什么差异? 核心就在于,扩散模型不是“一个字一个字”地生成,而是一次性生成完整的结果,然后不断修正(像是从马赛克一步步清晰化)。这意味着: - 多个正确的 token 可以并行出现,速度自然快; - 可选择少做几轮修正,牺牲点质量来换更快输出。 但如果你只想生成几个token,扩散模型反而更慢。毕竟它无论长短都得跑完整套流程。而自回归模型可以灵活停下。 还有个差异就是输出长度:扩散模型一次只能输出固定长度(如256个token),要更长就得再来一轮;自回归模型则可以随时停。这也影响了两者在长上下文的表现,扩散模型一旦开始就要跑完一轮,长上下文处理成本更高。 那它能“推理”吗? 现在很多强模型靠“思维链”(COT)提升推理能力,而在COT中,自回归模型每一步都可以“反悔”,如“等等”或者“我错了”。扩散模型因为是整块生成+迭代修正,类似“我错了”的中途反应,可能会在后续迭代中被抹掉。 当然,也有研究试图让扩散模型具备类似能力,但目前还没看到特别惊艳的效果。 最后还有一个小点:虽然叫“扩散模型”,它内部其实也用到了Transformer架构,只是作用不同:不是预测下一个token,而是判断哪里是“噪声”需要被修正。 总结一下,扩散语言模型的优劣很明显: - ✅ 并行生成,速度快,适合追求高吞吐; - ✅ 可调节精度与速度的平衡; - ❌ 上下文长时效率低; - ❌ 推理能力尚不明确; - ❌ 小规模生成不占优势。 对此,有网友表示,未来或许是两种模型“分工合作”而不是“谁取代谁”。 感兴趣的小伙伴可以点击原文:-of-text-diffusion-models/
谷歌的超快文本生成新技术——GeminiDiffusion,实际就是把扩散模型
量子位来谈科技
2025-05-23 19:15:00
0
阅读:1