开源模型媲美GPT4o图像生成编辑一体化神器
GPT-4o横空出世后,全模态大模型成为新方向。ModelScope团队顺势推出了开源模型Nexus-Gen,不仅能理解图像、还能生成和编辑,且图像质量直逼GPT-4o。
Nexus-Gen采用Transformer加扩散模型的技术路径,融合MLLM的语言理解能力和扩散模型的图像渲染能力。与传统All-to-All模型不同,它在高维特征空间进行建模,显著提升图像质量。
为了解决图像生成中误差积累的问题,团队提出“预填充自回归”策略,优化训练与推理一致性,从而提升预测准确率。
训练方面,Nexus-Gen统一了三类任务的数据格式,并使用了25M规模的数据,包括图像理解、生成和编辑任务。图像编辑部分尤其依赖ImagePulse数据集,涵盖添加、去除、风格迁移等操作。自回归模块和扩散模块分开训练,分别使用SWIFT和DiffSynth-Studio框架。
模型目前在图像理解、生成和编辑三方面均展示了出色能力,支持多prompt、故事线式编辑等操作,具有广阔的应用潜力。未来团队还计划在模型规模、图像Token数量、融合训练等方向持续优化。
目前包括论文、代码、模型和数据集都已开源——
论文链接:
代码链接:
模型链接:
数据集(ImagePulse)链接: