GPT4o以及Gemini2.0Pro的图片编辑功能,肯定是采用的预训练大模

护川士兵 2025-03-26 17:59:23

GPT4o以及Gemini 2.0 Pro的图片编辑功能,肯定是采用的预训练大模型+Diffusion模型的技术路线。类似方法的论文前几天我正好看过。

GPT4o的相对来说更好一些,一个是具有In-context learning的能力(得益于可以输入多图),再一个是采用了两段式生成,即先生成图片再上采样的方法,所以生成的分辨率比Gemini高很多。

0 阅读:0
护川士兵

护川士兵

感谢大家的关注