DC娱乐网

【Apple 推出全新研究数据集,以帮助训练 AI 图像编辑模型】Apple 研

【Apple 推出全新研究数据集,以帮助训练 AI 图像编辑模型】

Apple 研究人员发布了 Pico-Banana-400K,这是一个包含 40 万张精选图片的综合数据集,旨在用于改进 AI 系统根据文本提示编辑图像的方式。

这个庞大的数据集旨在弥补 Apple 当前 AI 图像编辑训练方面的不足。尽管像 GPT-4o 能够让人眼前一亮的编辑,但研究人员表示,由于没有基于真实照片构建的训练数据,其进展一直受到限制。Apple 的最新数据集将进一步改善这种情况。

Pico-Banana-400K 收录了 35 种不同编辑类型的图像,涵盖 8 大类型,从基本的色彩调整到复杂的图像转换,例如将人物转换为皮克斯风格的角色或乐高人偶。每张图像都经过了 Apple 的 AI 质量控制系统,并使用 Google 的 Gemini-2.5-Pro 软件,根据指令的符合性和技术质量来评估结果。

该数据集还包括三个子集:258000 个用于基础训练的单次编辑示例、56000 个比较成功和失败编辑的偏好对,以及 72000 个多轮序列,显示图像如何通过多次连续编辑而演变。

Apple 使用 Google 几个月前发布的 Gemini-2.5-Flash-Image(又名 Nano-Banana)编辑模型构建了该数据集。然而,Apple 的研究揭示了该模型的局限性。尽管全局样式更改的成功率高达 93%,但诸如重新定位对象或编辑文本等精确任务却表现不佳,成功率低于 60%。

研究人员表示,Nano-Banana 在空间编辑、布局外推和排版存在局限性,但他们使用 Pico-Banana-400K 的目标是“为训练和评估下一代文本引导图像编辑模型奠定坚实的基础”。完整的数据集已在 GitHub 上提供,供非商业研究使用,因此开发者可以使用它来训练功能更强大的图像编辑 AI。