
目录
前言
设计让AI反推的指令
生成和修改AI输出的提示词
选择生图工具,验证效果
5.写在最后
当看到这个标题的时候,一些小伙伴可能会有疑问:
视频反推才有必要吧?现在都能图生图和修图,图片还有反推的必要吗?
答案当然是“有必要”。因为图生图、AI改图、AI反推提示词的适用场景不同。
这是它们的区别:

所以其实反推图片提示词是最根本的一步,关键作用在于帮我们用文字梳理成图思维、建立和丰富我们的画面美学体系,比如提炼他人画作美学,形成风格相同、相似、不同、完全不同的美学模板。
其中关于成图思维,大家可以看看之前这篇的提示词结构和结构维度的技巧:
AI生图频翻车?3个秘诀为你打造高可用的文字绘画魔法
当我们看上了他人的神仙画作,想用作商用,但不能下载他人的图片作为参考图二创、不能转发时,反推图片提示词的兜底作用就展现了。
而增加反推图片提示词的次数,本质上就是在增强我们对画面美学的控制力,提升图片独立设计的能力。
下文将从反推的指令、反推工具、生图工具三方面来讲述“偷师”方法。为了能更好地理解文意,大家请边看提示词文档(小绿泡上的文章获取)边浏览下文哦~
(ps:以下图片均由AI生成)
第一步:设计让AI反推的指令
**整个指令需要按照“**高级角色设定+任务简述+任务分步详述+输出格式”进行设计。
其中任务分步详述中要说明要素构成,制定对应的输出标准,写明组成要素。尤其是画面美学板块。
比如以下基础版指令:
中文版:
请你扮演一位专业的艺术设计分析师和顶尖的AI提示词工程师。你的核心任务是,基于我刚刚上传的图片文件,对其进行要素结构,并逆向推导出其对应的、能够生成同样画面的AI生图提示词。具体要求如下:
1.在分析和逆推的过程中,你必须严格遵循以下维度作为你的分析框架和输出标准,最后附上必要的技术规格:
图片内容: 识别镜头中的主体(人或物)和环境,详细分析画面内容,并分析其行为所承载的叙事或氛围塑造的意图。主体、环境分析和描述需详尽,描述词需专业
画面美学: 分析并描述图片风格、色彩、光影、构图、视角、材质、氛围、景别、画质等要素,其中材质是指用以描绘或勾画物体的材质、呈现的纹理情况。整个画面美学用短词语描述而非句子。画面美学分析和描述需详尽,描述词需专业。
2.请对1的具体分析进行概括(400字以内),并按照以下格式输出你的分析结果:
【图片内容】: XXX。
【画面美学】: 【风格】XXX;【色彩】XXX;【光影】XXX......
【技术规格】:XXX
英文版:
Please act as a professional art design analyst and a top-tier AI prompt engineer. Your core task is, based on the image file I just uploaded, conduct an element structure analysis of it and reverse-engineer the corresponding AI image-generation prompt that could produce this image (as I want to replicate this reference image). The specific requirements are as follows:
1. During the analysis and reverse-engineering process, you must strictly adhere to the following dimensions as your analysis framework and output standards, with necessary technical specifications attached at the end:
- Image Content: Identify the main subject (person or object) as well as the scene and environment in the frame, conduct a detailed analysis of the image content, and analyze the narrative or atmosphere-shaping intent conveyed by the subject's actions.The analysis and description of the subject and environment must be detailed, and the descriptive terms must be professional.
- Image Aesthetics: Analyze and describe elements such as the image's style, color, light and shadow, composition, perspective, material, atmosphere, shot type, and image quality. Here, "material" refers to the material used to depict or outline objects and the presented texture. The entire image aesthetics part should be described with short phrases rather than complete sentences.The analysis and description of the picture's aesthetic elements must be thorough, and the descriptive terms must be professional.
2. Please summarize the specific analysis in point 1 (within 400 words) and output your analysis results in the following format:
- 【Image Content】: XXX.
- 【Image Aesthetics】: 【Style】XXX; 【Color】XXX; 【Light and Shadow】XXX...
- 【Technical Specifications】:XXX.
因为反推图片提示词的AI可能是国外产品,所以英文版也需要考虑。
因为最后我们需要用生图工具进行效果验证,而每个生图工具的技术规格设置不同,有些带有明确格式,有些是按钮选择,所以最好技术规格也纳入反推的指令中。
你可以针对不同类型的图,设计几套不同的反推指令。比如人像设计、产品特写图就详细描述主体要求,简写环境要求。甚至为了方便之后判断是否需要自己附参考图创作,你可以还让AI判断主角IP。
第二步:生成和修改AI输出的提示词
选择反推的AI工具,关键就是看工具是否具有上传图片的功能、较强的图片理解分析能力。
这里国内工具推荐豆包。因为我们常用的国内工具中,deepseek无法识别无文字图片,kimi和元宝的hunyuan模型对画面美学推理不如豆包。(见云文档)
不过豆包的输出结果质量,相比国外搜索大模型还是差了些。
国外的工具推荐Gemini和chatgpt5。
两者都可以输入中文,其中Gemini的优势在于反馈的画面美学提示词很细腻,比chatgpt5和豆包都更为详细精准;chatgpt5的画面美学解析的专业度介于Gemini和豆包之间。
比如这个让Gemini、chatgpt5、豆包解析插画的案例:

(图片来源于小红书博主“眸笙”)

豆包没有解析出“油画质感”,另外俩都解析出了,且Gemini对颜色还作了细分(朱红,暖金),解析出“油画、水彩”两种笔触纹理和“厚涂”风格。
当AI输出结果之后,我们千万不能直接使用。一定要经过自己检查完善后才使用。
因为可能AI会对人物形象和动作描述不够细致,对装饰元素提取有误,对环境空间布局简要带过。就算是刚夸过的Gemini,也会出现“一一识别图片运用的材质,但识别完成组在一起不符合大众审美”的情况。
比如人物卡牌图:


(图片由wan2.5生成)
检查gemini反推的提示词时,我们的注意力可以重点放在人物形象描绘、动作描述和装饰元素上。检查豆包和chatgpt反推的提示词时,就还需要关注画面美学。
第三步:选择生图工具,验证效果
提示词修改完成后,就到了生图验证的环节了。
从生图整体效果而言,国内工具中,即梦(豆包)绝对是首选。其语义理解能力高,创意性强。即便画面美学良好的基础上,图片内容描述简单,大概率也会得到令人满意的结果。
不过有一个限制,就是提示词不能超过800字,也不方便输入英文提示词(1个英文字母算1字,容易超字数)。
国外工具的选择就挺多,midjourney、chatgpt、banana等生成效果都不错,不过都有自己固定的特点,大家选择适合自己的吧:
midjourney:高度艺术化、强风格化,强大的样式变体与创意多样性,有自己的个性化参数和风格化代码体系。色彩、构图、氛围往往更为夸张或富有创意,适合具有视觉冲击力、艺术感、辨识度的图片。
chatgpt:输入语言包容性强,复杂文字语义理解强,对文字、标签、场景说明等元素的控制可能更好。相对其他生图工具,生成的图像饱和度不高,颜色整体更暗,像加了滤镜;图像线条感更重。
banana:维持一致性、图像编辑能力(比如同一人物在不同视角/后期调整)、写实度、文字渲染等方面表现优秀。不过可能对影视作品的IP角色不识别,不能输入中文指令,保存聊天记录有门槛。
以下是用gemini反推提示词、即梦和chatgpt生成的效果对比图:(提示词见云文档)

(左为原图,右为chatgpt生成图)

(即梦4.0生成图)
用chatgpt反推提示词、banana生成的效果对比图:

(左为原图,右为banana生成图)
写在最后
因人物形象、环境背景很难将细微之处用文字还原出来,且每个工具的文字处理能力情况不一,文字输入字数也可能有限制,所以图片反推提示词重点还是在于把控画面美学,进行风格迁移。
这也表明了,我们不能通过反推图片提示词而复刻他人的图片。想要完全复刻或者99%近似生图,还是需要依靠图生图(这个也会有一致性问题)或者json语言。
不过,用AI反推图片提示词研究出自己创意的图片岂不是更好?先在研究阶段反推修改,再在出图阶段依靠图生图生成系列成品,再用AI改图进行润色局部修改,你也成为了一名视觉设计大师。
好了,今天的分享就到这里了,若你对反推提示词有体验和感悟,欢迎在评论区分享和讨论,也欢迎大家入群交流哦~
关注ChooseAI,和我们一起探索AI时代!