开源模型媲美GPT4o图像生成编辑一体化神器GPT-4o横空出世后,全模态大模型

量子位看科技 2025-05-11 23:27:01

开源模型媲美GPT4o图像生成编辑一体化神器

GPT-4o横空出世后,全模态大模型成为新方向。ModelScope团队顺势推出了开源模型Nexus-Gen,不仅能理解图像、还能生成和编辑,且图像质量直逼GPT-4o。

Nexus-Gen采用Transformer加扩散模型的技术路径,融合MLLM的语言理解能力和扩散模型的图像渲染能力。与传统All-to-All模型不同,它在高维特征空间进行建模,显著提升图像质量。

为了解决图像生成中误差积累的问题,团队提出“预填充自回归”策略,优化训练与推理一致性,从而提升预测准确率。

训练方面,Nexus-Gen统一了三类任务的数据格式,并使用了25M规模的数据,包括图像理解、生成和编辑任务。图像编辑部分尤其依赖ImagePulse数据集,涵盖添加、去除、风格迁移等操作。自回归模块和扩散模块分开训练,分别使用SWIFT和DiffSynth-Studio框架。

模型目前在图像理解、生成和编辑三方面均展示了出色能力,支持多prompt、故事线式编辑等操作,具有广阔的应用潜力。未来团队还计划在模型规模、图像Token数量、融合训练等方向持续优化。

目前包括论文、代码、模型和数据集都已开源——

论文链接:

代码链接:

模型链接:

数据集(ImagePulse)链接:

0 阅读:2
量子位看科技

量子位看科技

感谢大家的关注