【Apple 推出全新研究数据集，以帮助训练 AI 图像编辑模型】Apple 研

【Apple 推出全新研究数据集，以帮助训练 AI 图像编辑模型】

Apple 研究人员发布了 Pico-Banana-400K，这是一个包含 40 万张精选图片的综合数据集，旨在用于改进 AI 系统根据文本提示编辑图像的方式。

这个庞大的数据集旨在弥补 Apple 当前 AI 图像编辑训练方面的不足。尽管像 GPT-4o 能够让人眼前一亮的编辑，但研究人员表示，由于没有基于真实照片构建的训练数据，其进展一直受到限制。Apple 的最新数据集将进一步改善这种情况。

Pico-Banana-400K 收录了 35 种不同编辑类型的图像，涵盖 8 大类型，从基本的色彩调整到复杂的图像转换，例如将人物转换为皮克斯风格的角色或乐高人偶。每张图像都经过了 Apple 的 AI 质量控制系统，并使用 Google 的 Gemini-2.5-Pro 软件，根据指令的符合性和技术质量来评估结果。

该数据集还包括三个子集：258000 个用于基础训练的单次编辑示例、56000 个比较成功和失败编辑的偏好对，以及 72000 个多轮序列，显示图像如何通过多次连续编辑而演变。

Apple 使用 Google 几个月前发布的 Gemini-2.5-Flash-Image（又名 Nano-Banana）编辑模型构建了该数据集。然而，Apple 的研究揭示了该模型的局限性。尽管全局样式更改的成功率高达 93%，但诸如重新定位对象或编辑文本等精确任务却表现不佳，成功率低于 60%。

研究人员表示，Nano-Banana 在空间编辑、布局外推和排版存在局限性，但他们使用 Pico-Banana-400K 的目标是“为训练和评估下一代文本引导图像编辑模型奠定坚实的基础”。完整的数据集已在 GitHub 上提供，供非商业研究使用，因此开发者可以使用它来训练功能更强大的图像编辑 AI。

DC娱乐网

【Apple 推出全新研究数据集，以帮助训练 AI 图像编辑模型】Apple 研

热门分类