本地开源图像模型又出来一个新玩意:Boogu-Image。到现在为止,也没有说是哪家公司出的,但是整体提升不错。参数只有10B,有turbo,base,edit等好几个版本。
似乎还是一个试验性版本,还没有经过调优。comfyui已经支持。
他们研究的结论是:像 Nano Banana Pro 和 GPT-Image-2 这类闭源多模态理解与生成系统之所以表现出色,并非依赖单一模型,而是通过高度统一的系统能力组合实现的。然而,在训练算力远低于闭源系统的情况下,我们发现系统性地提升模型的理解能力、数据质量和训练流程仍能显著改善图像生成与编辑性能。具体而言,与一些现有开源模型相比,我们的训练数据规模大约小一个数量级。我们希望本次经验研究和开源发布能够助力推动多模态生成与理解领域的开源生态发展。
主要特点:1.精美而精准的摄影 — 能准确理解摄影类提示,生成高质量图像,具备自然光线、连贯构图和忠实细节,即使在复杂的现实场景中,也能保持主体、背景和空间关系的一致性
2.多样且稳定的文本渲染 — 支持多种含大量文本的设计场景,如海报、印章、文档、界面、品牌指南和手写板等,在各种布局下均能呈现清晰的结构、稳定的字体排印,以及可靠的中英双语渲染效果。
3.丰富而优美的风格化 — 可处理多种风格化生成任务,包括微缩3D场景、中式鎏金美学、闪耀的奇幻视觉、动漫人像和神话角色艺术——不仅是简单的风格迁移,更是稳定、美观且贴合提示的创意生成。
4.多功能图像编辑 — 支持广泛的编辑任务,包括物体插入、替换与移除,属性与材质修改,背景与场景替换,以及跨艺术风格的忠实风格迁移,同时保持原始主体和构图的一致性
5.个性化海报设计与产品渲染 — 生成个性化的海报布局和干净的产品可视化图像,具备一致的品牌风格、精致的字体排印,以及达到产品级标准的灯光与构图
6.精准的文本编辑 — 支持细粒度的图像内文本编辑——可替换、添加或删除中英文字符,并灵活调整字体、字重、颜色和布局,以匹配不同的设计意图
7.综合性能领先 — 在众多场景和基准测试中表现优异,Boogu-Image-0.1 系列模型在 Boogu Arena 的评估中,位列所有开源及闭源系统中的顶尖水平
模型地址:www.modelscope.cn/models/Boogu/Boogu-Image-0.1-Edit/summary





