AI编辑图像能力更强了AI多轮图片编辑不翻车
想要简单修改几处,AI生成的图片直接就崩坏了?
一个韩国团队想出了一个好办法,只需要粗略掩码+简单的文本提示,就能够丝滑实现连续的图片编辑。【图1】
这个方法主要进行了两大创新:一是支持粗略掩码输入,在保留现有内容的同时实现新元素的自然融合,其次是通过分层记忆机制实现多次修改间的编辑效果一致性。
无论是增加物体,还是删除物体,都展现出了不错的效果,能够保持前景完整与背景协调。【图2、图3】
在背后支撑着这一效果的,是一个整合了背景一致性引导和多查询解耦交叉注意力两大核心技术的框架,能够以极其简单的用户操作实现迭代式图像编辑。【图4】
- 背景一致性引导(Background Consistency Guidance)
利用层记忆中的信息,仅更新被编辑区域,保持未编辑区域的稳定性,同时减少计算开销。
- 多查询解耦交叉注意力(Multi-Query Disentangled Cross-Attention)
通过解耦查询和潜在特征的注意力,确保新对象能够自然地融入已有内容,同时保持背景和空间关系。
团队还构建了一个新的基准数据集MultiEdit-Bench,用于评估多步编辑任务中的语义对齐和空间一致性。
对这个方法感兴趣?欢迎点击下方链接查看更多内容~
论文链接:
项目主页: