首尔大学计算机视觉实验室发布了一种新的根据用户指定区域,文本提示生成实时交互式多文本到图像的方法。说起来有点拗口,简单的说就是相对于目前用文生图模型加inpainting模型这种比较麻烦的蒙版和涂鸦生成方式,StreamMultiDiffusion是将模型重组为多提示流批处理架构,新的框架对于涂鸦和区域生成来说非常方便且快捷。
StreamMultiDiffusion是第一个基于区域的实时文本到图像生成框架。通过稳定快速推理技术并将模型重组为新提出的多提示流批处理架构,实现了比现有解决方案快 10 倍的全景图生成速度,并在单个 RTX 2080 Ti GPU条件下,基于区域的文本到图像生成中实现了 1.57 FPS 的生成速度。该解决方案开辟了一种名为语义调色板的交互式图像生成的新范例,其中从给定的多个手绘区域实时生成高质量图像,编码规定的语义含义(例如,鹰,女孩)。
技术图示
基于区域的图像生成的稳定加速
建立扩散模型的基于区域的控制和加速技术之间的兼容性
多提示流批处理架构
扩展 StreamDiffusion 的 Stream Batch 架构,以允许从多个基于区域的文本提示进行流式生成
加速文本到全景的生成
可将 512 x 3072 图像的生成速度比之前的解决方案快 13 倍,推理时间是使用单个 2080 Ti GPU 测量的。
加速基于区域的文本到图像生成
StreamMultiDiffusion 可以在几秒钟内合成高分辨率图像,同时严格遵守区域文本提示。尺寸为768 x 1920,有包括背景提示在内的九个提示。该时间是使用单个 2080 Ti GPU 测量的。
论文链接:arxiv.org/abs/2403.09055
特点
1、通过细粒度区域控制从头开始生成交互式图像。换句话说,你用意义来描绘图像。
2、及时分离。同时生成两个或多个对象时,不再被无意的内容混合所困扰。
3、实时图像修复和编辑。基本上,可以根据任何上传的图片进行绘制。
安装使用
通过 github.com/ironjr/StreamMultiDiffusion 本地安装部署。通过本地部署能使全部功能,包括全景生成,支持将不规则大尺寸图像(例如全景图)的生成速度提高 10 倍。例如,以下代码在单个 2080 Ti GPU 上运行只需 10 秒。
通过抱抱脸试用
语义调色板
huggingface.co/spaces/ironjr/SemanticPalette
huggingface.co/spaces/ironjr/SemanticPaletteXL
实时语义调色板
huggingface.co/spaces/ironjr/StreamMultiDiffusion
使用方法
1、上传背景图片。您可以从白色背景图像开始,也可以从手机摄像头中的任何其他图像或其他人工智能生成的图像开始。还可以使用特定的语义画笔完全覆盖图像编辑器,以从文本提示同时绘制背景图像。
2、输入一些文本提示。单击屏幕左侧语义调色板上的每个语义画笔,然后在下面的界面中输入文本提示。这将创建一个新的语义画笔。
1、画图。选择与语义调色板的顺序相匹配的适当层(重要)。也就是说,第 n 层对应于提示 n。
4、按下播放按钮,享受吧!
这种新的,直观的涂鸦生成比起在SD Webui 或Comfyui上用inpainting 方便多了,大家可以去玩玩。