MIT发布一步生成高质量图像AI新框架,字节偷笑

开心盖土 2024-03-28 05:07:55

通过扩散模型生成图像,已经是AI界文生图的基本操作,这种模型需要经过多个步骤才能将初始的噪音像素转化为清晰的图像。昨日,麻省理工学院(MIT)计算机科学与人工智能实验室的研究人员推出了一种叫分布匹配蒸馏(DMD)的框架,可将传统扩散模型繁琐的多步生成过程简化为一步操作,同时保持甚至提高图像质量。

这个名字跟字节跳动前不久发布的“SDXL-Lightning:渐进式对抗扩散蒸馏(Progressive Adversarial Diffusion Distillation)”名字有点像,大概看了一下,应该是跟字节跳动发布的论文的一个分支路线。不过字节跳动不仅发布论文,而且早已把模型发布了,小伙伴们早已用上了SDXL-Lightning一步生图模型。MIT这不仅是跟着字节后面吃灰吗。

MIT这项名为分布匹配蒸馏(Distribution Matching Distillation DMD)的新方法,借鉴了生成对抗网络(GAN)和扩散模型的原理,实现了一步生成高质量图像的目标,一步生成速度是SD1.5模型的30倍。

DMD构架

DMD方法包含两个关键组成部分。首先,它使用了回归损失,将生成空间的图像进行粗糙组织,确保训练过程的稳定性。其次,它使用分布匹配损失,确保学生模型生成给定图像的概率与其在真实世界中出现的频率相对应。为此,它利用了两个扩散模型作为向导,帮助系统理解真实图像和生成图像之间的差异,从而使一步生成器的训练成为可能。

通过最小化学生模型生成图像和传统扩散模型训练数据集中图像之间的分布差异,DMD实现了更快的生成速度。研究人员表示,DMD方法的关键洞见在于利用两个扩散模型近似微调新模型的梯度,从而提取原始复杂模型中的知识,移植到单步模型上,同时避免了GAN训练中的不稳定性和模式崩溃问题。

研究人员指出DMD生成图像的性能与其蒸馏过程中使用的教师模型的能力密切相关。目前使用Stable Diffusion 1.5作为教师模型的DMD在渲染细节文本和人脸上存在一定局限性,这意味着使用更先进的教师模型将能进一步提升DMD生成图像的质量。

从以上论文细节可以看出来,DMD是以SD1.5模型来蒸馏训练的,而字节跳动的Lightning模型是以更好的SDXL模型来训练。MIT的官方对比图没好意思放字节的Lightning模型对比图,然后我把这个工作做了,哈哈。下面看看吧。

与稳定扩散模型对比

Medium shot side profile portrait photo of a warrior chief, sharp facial features, with tribal panther makeup in blue on red, looking away, serious but clear eyes, 50mm portrait, photography, hard rim lighting photography

SD (50步)2590ms:Lightning(1步):DMD(1步)90ms

a hyperrealistic photo of a fox astronaut; perfect face, artstation

SD (50步)2590ms:Lightning(1步):DMD(1步)90ms

a DSLR photo of a golden retriever in heavy snow

SD (50步)2590ms:Lightning(1步):DMD(1步)90ms

a Lightshow at the Dolomities

SD (50步)2590ms:Lightning(1步):DMD(1步)90ms

the giant magical deer god of the forest, sniffing flowers on the forest floor. Fireflies evereywhere. A spring of water. Long moss hanging from the tree branches. Moonlight. Photorealism, cinematic shot, cinematic lighting, National Geographic, analagous colors, Award-winning photography

SD (50步)2590ms:Lightning(1步):DMD(1步)90ms

3D render baby parrot, Chibi, adorable big eyes. In a garden with butterflies, greenery, lush, whimsical and soft, magical, octane render, fairy dust

SD (50步)2590ms:Lightning(1步):DMD(1步)90ms

与其他蒸馏方法的对比

close-up photo of a unicorn in a forest, in a style of movie still

Instaflow (1步)90ms:LCMv1.5 (2步)120ms:Lightning(1步):DMD(1步)90ms

amazing photograph of a labrador retriever chasing a tennis ball under water, fisheye lens, close up portrait, crazy image

Instaflow (1步)90ms:LCMv1.5 (2步)120ms:Lightning(1步):DMD(1步)90ms

wise old man with a white beard in the enchanted and magical forest

Instaflow (1步)90ms:LCMv1.5 (2步)120ms:Lightning(1步):DMD(1步)90ms

macro photo of a miniature toy sloth drinking a soda, shot on a light pastel cyclorama

Instaflow (1步)90ms:LCMv1.5 (2步)120ms:Lightning(1步):DMD(1步)90ms

Astronaut on a camel on Mars

Instaflow (1步)90ms:LCMv1.5 (2步)120ms:Lightning(1步):DMD(1步)90ms

a high-resolution photo of an orange Porsche under sunshine

Instaflow (1步)90ms:LCMv1.5 (2步)120ms:Lightning(1步):DMD(1步)90ms

an underwater photo portrait of a beautiful fluffy white cat, hair floating. In a dynamic swimming pose. The sun rays filters through the water. High-angle shot. Shot on Fujifilm X

Instaflow (1步)90ms:LCMv1.5 (2步)120ms:Lightning(1步):DMD(1步)90ms

3D animation cinematic style young caveman kid, in its natural environment

Instaflow (1步)90ms:LCMv1.5 (2步)120ms:Lightning(1步):DMD(1步)90ms

比完后,除了速度没法对比,因为不知道用的什么显卡,感觉字节跳动的SDXL-Lightning完胜啊。

参考链接:

https://news.mit.edu/2024/ai-generates-high-quality-images-30-times-faster-single-step-0321

https://tianweiy.github.io/dmd/

https://arxiv.org/abs/2311.18828

0 阅读:0

开心盖土

简介:感谢大家的关注