在上一篇文章中,我们达成了一个共识:在云端大模型时代,一张模糊的真人实拍图,比精准的 OpenPose 骨架图更懂“物理规则”。
但这并不意味着我们可以随便去 Pinterest 上下载几张时尚大片扔给 AI。事实上,如果你这么做了,大概率会得到一张只有氛围感、但肢体结构完全崩坏的废片。
当我们把一张照片定义为“动作参考”时,它的属性就变了。它不再是给人欣赏的摄影作品,它是写给机器阅读的“视觉代码”。
给人类看的照片,讲究光影层次、构图暧昧;但给 AI 看的照片,“好看”往往是致命的毒药。
我们需要建立一套全新的、甚至有些“反审美”的选图标准。

人类摄影师喜欢指导模特做一些有互动感的动作:双手交叉抱胸、手托下巴、双腿交叠。这些动作在人眼看来很有层次感,因为我们的大脑天生具备强大的“深度知觉”,能轻易分清哪是手,哪是胸。
但在 AI 的编码器里,世界是被拍扁的。
当一张照片里,模特穿着深色衣服,把手放在胸前时,AI 看到的往往不是“手搭在胸口”,而是一块“长了手指的胸肌”。它分不清色块的边界,于是它会试图把手和身体“融合”在一起。这就是为什么你的 AI 角色经常会出现“手陷入身体里”或者“胳膊断了一截”的恐怖画面。
所以,在构建 AI 动作库时,我们必须执行一个极其严苛的“肢体分离原则”:
一张好的有效的动作参考图,肢体与躯干之间必须有清晰的区分。
这导致了一个有趣的现象:动作库里的姿势,往往看起来并不优雅,甚至有些僵硬和夸张。
我们需要模特把腋下打开,把双腿分开,把手掌远离面部。这些在传统摄影中被视为“没感觉”的平铺直叙,恰恰是 AI 最喜欢的“清晰代码”。只有把四肢像零件一样拆开展示,AI 才能在重绘时,把它们组装成你想要的任何优雅姿态。
为了结果的自然,输入的姿势必须是“刻意”的。

在做动作参考时,我们很容易陷入一个误区:我想生成一个赛博朋克的女战士,所以我找了一张拿着光剑、穿着机甲的 Coser 照片做参考。
结果呢?AI 不仅学了动作,还把 Coser 身上那些复杂的机甲碎片、发光的线条,一股脑地贴到了你的角色身上。你的角色原本设定是穿校服的,现在可能变成了混合两个图像的各自特点的融合图。
这就是参考图带来的“视觉噪音”的污染。
AI 的注意力机制是非常难以捉摸的。当参考图的服装纹理过于丰富(比如蕾丝、格子、复杂的褶皱)时,AI 会误以为这些纹理是“动作结构”的一部分。
因此,一个合格的动作库模特,应该是“隐形”的。
这就是为什么我建立的标准库里,模特穿的都是最丑、最基础的灰色紧身衣。
紧身: 为了让 AI 看清肌肉的走势和关节的折叠,而不是看清布料的垂坠。
素色: 剥夺 AI 对纹理的注意力,强迫它只能关注“这个人在做什么”。
在参考图维度上,信息的“贫乏”就是最大的“丰富”。 我们必须人为地把参考图里的“风格信息”降到最低,把你不想让 AI 抄走的细节全部抹平,它才会乖乖地只抄走你想要的那个动作。
三、 极致对比(Contrast):人为制造“视觉焦点”很多生活照之所以不能用,是因为背景太丰富了。
你站在树荫下拍了一张跳跃的照片,地上的影子斑驳陆离。人眼能一眼看出哪里是脚,哪里是树影。但在 AI 眼里,那块黑色的影子可能就是你的“第三条腿”。
AI 的视觉识别本质上是在做“语义分割”。如果背景不够干净,AI 就得消耗大量的算力去猜“主体在哪里”。一旦它猜错了,你的图就崩了。
所以,动作库的第三条法则就是:把“抠图”的工作在物理世界先做完。
我们拍摄动作库时,几乎只用纯白或浅灰背景,并且打光要硬,要让人物边缘像刀切一样锐利。
我们不是在追求摄影艺术中的“空气感”或“融入环境”,我们是在追求“标本感”。我们要像制作昆虫标本一样,把人物从环境中无情地剥离出来,贴在一个绝对干净的背景板上。
只有这样,AI 才能在毫秒之间,毫不犹豫地锁定住那个动作,而不是把背景里的垃圾桶也当成你身体的一部分画出来。

重新审视我们的 AI 动作库,你会发现它毫无美感可言。
里面装满了穿着灰色秋衣秋裤的人,在惨白的背景下,做着四肢大开的奇怪体操。这些图如果发到 Instagram 上,一张赞都骗不到。
但正是这些枯燥、刻意、甚至有些丑陋的图片,构成了 AI 写真最坚实的工业地基。
因为它们是纯粹的“功能性图像”。它们牺牲了作为照片的独立审美价值,换取了作为 AI 参考的高保真度。
在 AI 创作的世界里,只有输入参考图的足够“无聊”,输出的才能足够“惊艳”。