DC娱乐网

Google DeepMind让AI学会折纸,全程自动完成

这项由Google DeepMind与Google研究团队联合开展的研究,发表于2026年1月,论文编号为arXiv:2

这项由Google DeepMind与Google研究团队联合开展的研究,发表于2026年1月,论文编号为arXiv:2606.26299,感兴趣的读者可以通过该编号查询完整论文。研究团队还与来自独立折纸设计师群体及斯坦福大学的专家展开合作,历时多年共同打造了这套名为COrigami的人工智能折纸设计系统。

折纸,这门已有几百年历史的纸艺,听起来像是最不可能与人工智能产生交集的事物。毕竟,折纸靠的是人手的触感、眼睛的判断和几十年的经验积累。然而这篇论文要告诉我们的是:一台电脑,只需要接受一句普通的自然语言描述——比如"一只有着精致多叉鹿角的公驼鹿"——就能自动生成一份完整的折叠方案,让真实的纸张可以按照这份方案被折叠成一个像模像样的三维驼鹿模型。

这件事之所以难,并不是因为折纸本身看起来复杂,而是因为折纸在数学层面上有着极为严苛的规则。一张纸能不能被压平、折叠时会不会自我穿插、每条折痕的走向应该朝上还是朝下——这些问题在数学上被证明是"NP难"问题,也就是说,即便是最强的计算机也无法用暴力枚举的方式快速求解。更棘手的是,当前的大型语言模型在处理这类空间几何推理时表现很差,研究团队在早期实验中发现,直接让AI生成折叠方案,最终能满足数学规则的成功率只有不到60%,而且生成的模型完全不像任何真实生物。

正是为了解决这个困境,COrigami系统应运而生。

一、折纸为什么让AI犯难:一个关于无数条折痕的数学噩梦

要理解COrigami为什么值得关注,首先得明白折纸设计在计算机看来是一件多么复杂的事情。

每一张折叠完成的纸,如果你把它完全展开铺平,就会看到纸面上留下了密密麻麻的折痕网络。这张展开的纸就叫做"折痕图"——它是整个折纸作品的设计蓝图,记录着每一条折痕的位置和方向。一个复杂的折纸作品,比如一只有着六条细腿和两根触角的甲虫,其折痕图上可能有数千条折痕,每条折痕都需要被标注为"向上折"(山折)或"向下折"(谷折)。

这里有一个关键的数学要求,叫做"平面可折叠性"。简单来说,就是按照这张折痕图折叠出来的纸,必须能够被完整压平成一个二维的平面,而且折叠过程中纸张不能自我穿插。这个听起来简单的要求,背后却藏着两个经典数学定理。第一个是川崎定理:在折痕图的每一个交叉点上,交替相加和相减相邻角度的结果必须恰好等于180度。第二个是前川定理:在任意一个交叉点上,山折线和谷折线的数量之差必须恰好是加二或减二。这两个条件只是局部的必要条件,而判断整张折痕图全局是否满足要求,还需要检查折叠后的纸层之间是否有任何穿插,这个问题在计算机科学上被证明是NP难的。

不仅如此,折纸设计还面临数据极度匮乏的困境。折纸界有一个长期以来的传统:折痕图只是设计师给其他行家看的草图,不会记录所有细节,真正的美感来自折叠者自己的手感和经验。因此,世界上几乎没有多少张"完整且美观"的可识别折纸折痕图存在。研究团队最初只能从与合作折纸设计师共同创作的约100张作品中积累数据,这个数字对于训练AI来说少得可怜。

研究团队也尝试过最直接的方案:把大量折痕图转换成代码格式,然后直接训练语言模型生成这些代码。训练确实在推进,模型学会了生成格式正确的代码,但在严格的数学平面可折叠性检验上,成功率在训练到一定程度后就再也无法突破60%的天花板。这个结果表明,直接端到端的生成方式在这个任务上存在根本性的架构局限。

二、换一条路走:把折纸设计拆解成一道道可解的题目

面对这个困境,研究团队决定换一种思路。与其让AI一次性生成整个折痕图,不如把这个庞大的任务拆解成若干个更小、更容易处理的子任务,让AI只在它真正擅长的部分发挥作用,而把数学上要求严格的部分交给专门设计的算法来处理。

这个思路有一个专业名称,叫做"神经符号系统"——"神经"指的是神经网络和大型语言模型,"符号"指的是基于数学规则的确定性算法。COrigami正是这两种技术的结合体。

整个流程像是一条精心设计的流水线,从一句自然语言出发,经过五个主要阶段,最终产出一个可以被真人折叠的三维模型设计方案。

第一阶段是将自然语言转换为"语义骨架图"。这个骨架图的作用就像是建筑师画的结构草图,它不记录具体的折叠细节,只描述这个折纸作品大概应该有多少个"肢体",每个肢体的长度、朝向和空间位置大概是什么样子。这个骨架图在技术上叫做"语义棒状人形图",它本质上是一棵树状结构,树的每个分支对应折纸作品的一个解剖部位。Gemini模型负责根据文字描述生成这棵树,然后再次审查它,从四个不同视角(顶视、侧视、正视、等距视)检查骨架图是否与目标描述相符,如果不符就修正,直到满意为止。

第二阶段是将骨架图转换为一个二维矩形拼贴方案,叫做"打包"。这里涉及一种叫做"箱形折叠"的现代折纸技术。简单来说,箱形折叠把所有折痕限制在一个正交的整数网格上,所有折痕要么是水平线、要么是垂直线,要么是45度的对角线。这个限制带来了两个好处:第一,所有折叠角度都是理性数,人手可以精确执行;第二,折痕的传播是有限的,不会出现理论上永远延伸下去的折痕。在这个网格上,骨架图的每个"叶节点"(末端肢体)被映射为一个矩形,每条"内部边"(连接两个关节的躯干部分)被映射为一条路径,研究团队开发的回溯搜索算法负责在网格上把这些矩形和路径拼贴在一起,不留任何空隙。

第三阶段是"求解",也就是在这张铺满矩形的网格上,给每一条折痕分配山折或谷折的方向,并验证整张折痕图满足数学上的平面可折叠性要求。研究团队开发了一套组合启发式算法:先用确定性规则处理大部分折痕,把最难的部分(铰链折痕的分配)留到最后,再用优先级驱动的贪心搜索来解决,同时配合积极的剪枝策略快速淘汰不可行的方案。

第四阶段是"塑形",把扁平的折叠基础变成三维的立体模型。这里分为两步:先用算法根据骨架图的角度信息,自动计算出一系列简单折叠操作,把纸张从扁平状态推成与骨架图相符的三维姿态;再用强化学习进一步优化这些折叠操作,让最终效果更接近真实生物的外观,而不只是忠实再现骨架图。

第五阶段是"折叠与评估",用一个自研的几何折叠模拟器把折痕图渲染成三维模型,从七个不同角度拍摄截图,然后用视觉语言模型(VLM)扮演审美评委,给模型打分。

三、骨架图:让AI学会"素描"一只动物

骨架图这个概念值得单独深入解释,因为它是整个系统能够运作的关键基础。

传统的折纸设计方法,比如Robert Lang在1996年开创的"树方法",是把折纸作品抽象成一棵树,树的每个末端节点代表一个肢体末端,节点之间的边长代表对应肢体的长度。这棵树的形状决定了折纸作品的拓扑结构,也就是它有几条腿、几根触角、尾巴是否存在。

COrigami的语义骨架图在这个基础上增加了"语义"维度——不仅记录拓扑结构,还记录每一根"骨头"在三维空间中的指向。每一根骨头由三个参数决定:长度(这根骨头有多长)、方位角(在水平面上朝哪个方向)和仰角(向上还是向下倾斜多少度)。

Gemini模型接收到一段文字描述后,会尝试生成一个符合这种格式的JSON数据结构。以一只猫为例,输出会是一棵以"躯干"为根节点的树,躯干连接着头部、四条腿和尾巴,每一个部位都有对应的长度和角度参数。

生成之后,系统不会直接使用这个骨架图,而是会用Gemini再扮演一次审查员,从四个视角检查骨架图是否合理。审查的维度包括:节点和边的数量是否与目标描述匹配、比例是否合理、语义上能否被识别为目标动物、结构复杂度是否足够。如果评分太低,系统会要求Gemini修改骨架图,可能是调整某条腿的长度、修正两条对称肢体之间的角度使其真正对称、或者增减某些节点。这个反复审查和修改的过程会持续进行,直到骨架图达到质量标准。

值得注意的是,骨架图虽然能够描述动物的拓扑结构和大致姿态,但它无法表达肢体的宽窄、粗细等信息。一只昆虫细如发丝的腿和一头大象粗壮的腿,在骨架图上看起来可能没什么区别。这个局限性后来由塑形阶段的AI来弥补,它会根据视觉判断主动对肢体进行细化处理。

四、打包与求解:在网格上拼出一张纸的命运

打包阶段和求解阶段是COrigami系统中技术含量最高、也是最能体现创新性的部分。这是整个流程中完全由算法而非AI模型来主导的核心环节。

打包阶段的任务是把骨架图翻译成一个矩形拼贴问题:在一个正方形网格上,把代表各个肢体的矩形和代表躯干连接的路径排列好,要求完全覆盖网格、不留任何空白、也不相互重叠。

这个问题听起来像是在玩俄罗斯方块,但实际上要复杂得多。首先,网格的大小本身就是一个需要估算的变量。研究团队使用了一套基于圆形打包理论的启发式公式来估算初始网格大小,具体来说是把所有肢体的面积贡献加起来取平方根,同时与骨架树的最长路径长度取最大值,再根据对称性调整为偶数。然后系统会从这个估算值出发,依次尝试更大的网格,直到找到能够成功打包的最小网格尺寸。

打包算法的运作方式是一个迭代的回溯搜索。它首先按照骨架树的拓扑顺序依次放置"河流"(代表躯干连接的路径),第一条河流通过穷举所有可能的直线或L形路径来放置,后续的河流则沿着已放置元素的轮廓蜿蜒前行,像蛇一样绕过现有障碍物。每放置好一条河流,算法立即把这条河流围成的区域(叫做"口袋")中应该填入的矩形肢体放进去,候选位置要么通过解析计算(沿着相邻矩形的边滑动),要么通过暴力枚举格点,再经过对称性、重叠和面积可行性检查后按打分排序。

当所有矩形和路径都放置完毕后,网格上可能还剩一些空白格。这时算法会识别出所有未被占用的格子,计算出哪些相邻矩形可以扩展来覆盖这些格子,再通过回溯搜索找到一个一致的扩展方案,把所有空白都填满。这一步保证了最终的打包是完美的瓷砖拼贴——这是生成有效折痕图的数学前提。

完成打包后,折痕图的雏形就有了:对角线方向的"脊线"把每个矩形区域分割成更小的三角形区域,这些三角形的边界就是"铰链"的候选位置。求解阶段的任务是给图上所有折痕分配山谷方向,使得整张折痕图满足平面可折叠性。

研究团队把这个任务分为确定性步骤和组合搜索步骤两部分。在确定性步骤中,轴向折叠(水平和垂直方向的折痕)被按照固定的几何逻辑分组,相邻的平行组被交替赋予山折和谷折;脊线的方向从特定的锚点(如Y形交叉点和纸张边缘)出发,按照四条规则向外传播。经过这些确定性步骤后,绝大多数交叉点已经自然满足局部平面可折叠性,只剩下铰链折痕的分配还未解决。

铰链分配是整个求解过程中唯一的组合决策问题。系统把铰链分组成连通分量,每个分量对应骨架树的一个节点,按照顶点数从多到少的顺序依次处理。对每一个铰链,系统尝试两种分配方式(交错型MVMV或对称型MVVM),用贪心打分函数评估哪种更接近全局平面可折叠,同时积极剪枝掉所有使打分下降的候选状态。这个组合搜索的效率出乎意料地高——对于相当复杂的模型,它依然能够快速收敛。

五、塑形:从扁平草稿到立体生命

经过求解阶段,得到的是一个"折叠基础"——一张按照折痕图折叠后压平的纸,看起来像是一条密实的平板纸带。这张纸带内部虽然编码了正确的拓扑结构,但在外观上完全看不出它是一只驼鹿还是一只甲虫。真正赋予模型外观特征的,是接下来的塑形阶段。

塑形分为两个层次。第一层是算法塑形,通过程序自动把折叠基础推成与骨架图相符的三维姿态。算法从骨架树的根节点出发,用广度优先搜索依次处理每一根骨头对应的纸张区域,计算出把该区域从当前方向旋转到目标方向所需的折叠线,然后把这个折叠线施加到折痕图上。这种操作叫做"简单折叠",是折纸中最基础的一种操作:给定两个点定义一条切割线,把切割线一侧的纸张翻折过来。虽然听起来简单,但通过在不同位置多次施加,可以实现相当复杂的三维变形。

除了简单折叠之外,研究团队还开发了一种叫做"裁剪图案算法"的工具,用于实现"窄化"效果——比如把一只昆虫粗壮的肢体压缩成细如发丝的样子。这个算法维护一个局部坐标系,从折叠好的多层纸张的一个参考面出发,通过追踪拓扑折叠路径,把一个二维的窄化模板投影到每一层纸张上,并自动处理Z轴翻转导致的山谷方向互换问题。结果是一组协调一致的折痕,能够在不改变肢体方向的前提下减小其截面宽度。

第二层是强化学习塑形。算法塑形的结果虽然在几何上准确再现了骨架图,但骨架图本身可能存在比例上的问题,而且骨架图无法表达肢体宽度,所以算法塑形的结果常常看起来过于方块、缺乏生命力。为了突破这个瓶颈,研究团队把Gemini 2.5 Flash Lite模型用强化学习进行了微调,让它负责协调各种塑形工具的参数。

具体来说,这个RL训练把塑形任务表述为一个单步决策问题:给定骨架图的规格、可用工具的描述和一些上下文示例,模型一次性输出所有肢体的塑形参数。然后这些参数被执行,几何折叠模拟器渲染出七个视角的截图,视觉语言模型从这些截图中评估模型的视觉效果,给出一个0到1之间的分数作为奖励信号。如果生成的指令无效、违反平面可折叠性或引发模拟错误,则给予-1的惩罚。此外,系统还设置了一个鼓励工具多样性的内在奖励,防止模型只用少数几个简单操作就满足,而不去探索更丰富的塑形可能。

训练过程中,RL代理的行动空间比纯提示基线更宽广,它可以主动选择对特定肢体施加窄化操作、在更多位置施加额外的简单折叠,发现那些人工难以直觉预见的参数组合。训练曲线显示,成功工具调用次数、视觉奖励分数和有效输出比例都随训练步数稳步提升,验证了RL框架在这个任务上的有效性。

六、折叠模拟与视觉评审:让AI自己当裁判

在整个流程的末端,研究团队面临一个关键问题:如何自动判断一个生成的折纸模型是否足够好?

市面上已有的折纸模拟工具,如Origami Simulator,使用的是物理弹簧网格模型,通过迭代模拟纸张受力变形来计算三维形态。但研究团队发现,这种方法在涉及复杂折痕图时会积累较高的几何误差,不适合用于精确的质量评估。

为此,研究团队自研了一个纯几何折叠模拟器。它从折痕图的二维坐标出发,构建面邻接图,通过广度优先遍历,为每个面计算一个4×4的仿射变换矩阵——这个矩阵编码了该面相对于参考面的旋转和平移关系。对于共享同一条边的两个面,变换矩阵通过沿共享边轴旋转指定折叠角度来推导。由于一个顶点通常属于多个面,最终的三维坐标通过对所有相关面变换结果取平均来减少浮点误差。

在87个包含数千条折痕的复杂折痕图上测试,这个确定性模拟器的顶点重建误差最低可达10^-5量级,而Origami Simulator的误差通常在10^-1量级,两者相差高达五个数量级。这个精度差异意味着,研究团队的模拟器能够生成高保真度的三维渲染图,为后续的视觉评审提供可靠的视觉输入。

视觉评审的核心是用Gemini 3 Flash作为自动审美评委。这个视觉语言模型的评审流程有两种模式。

单模型评估模式下,模型接收目标描述的文字和来自七个视角的渲染截图,按照一套详细的评估准则逐步分析:先识别图中可见的特征,再对照真实生物检验肢体数量是否正确、肢体是否从正确的解剖部位生长出来、比例是否合理、身体各部分之间是否有清晰的几何分界、折叠是否整洁对称,最后检查是否存在网格穿插或混乱堆叠等几何缺陷。评审完成后给出0到10的分数。

对比评委模式下,系统展示两个折纸模型的截图,让模型进行直接比较,判断哪个更好,并给出相对分数。为了消除位置偏差(模型可能倾向于偏爱第一个看到的对象),系统会把两个模型的展示顺序互换重新评一次。

研究团队还专门建立了一个评测数据集(87个正例,152个负例)来测试不同评估配置的表现。实验发现了几个有趣的结论:Gemini Flash在这个任务上的表现出乎意料地优于更强大的Gemini Pro模型;使用详细的评估准则(包括肢体数量、拓扑结构、比例等多个明确标准)的提示词,比简单的打分或二分类提示词准确率高得多;而把两次比较综合在一起的"双重比赛模式",分类准确率达到81.1%,F1分数达到0.74,是所有测试配置中最高的。

七、从56万到2.8万:一场大规模自然选择

了解了流程的每一个环节,现在来看看整个系统在实际运行中的规模和筛选效率。

研究团队从56万个初始骨架树候选出发,启动了整个流水线。第一关是骨架图生成,只有20.2%的候选成功生成了有效的语义骨架图,得到约11.3万个候选。这个较低的通过率主要来自文字描述本身的多样性和复杂性——有些描述生成的骨架图存在循环结构,有些肢体配置不合理,Gemini无法修正到满意的状态。

通过骨架图关口的候选进入打包阶段,有55.3%成功找到了有效的矩形拼贴方案,剩下6.2万多个候选进入求解阶段。求解阶段的通过率更高,达到79.2%,反映了研究团队的组合求解器在常规复杂度的骨架图上相当有效。求解成功的候选进入算法塑形阶段,92.0%顺利完成,说明简单折叠算法对大多数骨架图都能正常运作。

最后,经过模拟应变检验和视觉语言模型审美评估的双重筛选,又有1.7万多个候选被淘汰——其中约7500个因视觉语言模型评分低于0.6而出局,约1.03万个因与骨架树的形状相似度低于0.9而出局。最终剩下约2.78万个结构上可行、视觉上令人满意的基础模型,整体存活率约为5%。

存活率的高低与骨架图的复杂程度密切相关。肢体数量少于10条的简单骨架图打包成功率接近100%,而肢体超过20条的复杂骨架图打包成功率会急剧下降。河流数量(连接两个以上关节的躯干段数量)的增加同样显著拖低打包和求解阶段的通过率,这与理论上的NP难性质完全吻合。

研究团队还按照语义类别分析了不同类型折纸的成功率,发现鸟类和非对称动物的整体成功率最高,而龙虾和蝎子这类拥有大量肢体的节肢动物成功率最低。

这2.78万个通过筛选的基础模型被送入强化学习的第二阶段。RL阶段只处理得分最高的前1000个模型,在这个基础上探索更丰富的塑形可能。RL阶段产生的所有样本再次经历一轮视觉语言模型竞赛,筛选出的顶级模型最终被展示在论文的图2中。那张图中的10个模型,是由研究团队手工从RL产出的200个高分模型中挑选出来送入最终竞赛的——这是整个流程中唯一涉及人工选择的环节。

八、与现有工具相比:COrigami带来了什么

折纸设计领域并不是没有计算机工具。TreeMaker和BP Studio是两个被专业折纸设计师广泛使用的软件。COrigami与这两个工具的差异,揭示了这项研究的价值所在。

TreeMaker从一棵拓扑树出发,通过圆形打包优化生成折纸基础的折痕图。但它依赖持续优化的数值方法,生成的折痕点常常是无理数,需要人工近似才能实际折叠。更重要的是,TreeMaker的核心优化步骤需要大量人工干预:用户必须手动设置对称约束、手动分解高阶多边形、手动调整节点位置以跳出局部最优。研究团队尝试在COrigami的流水线中自动化TreeMaker的步骤,结果在6.6万个骨架图测试中只有1.1%成功生成有效折痕图,其余大量失败于折痕图构建或平面可折叠性验证——这充分说明自动化TreeMaker的人工步骤有多难。

BP Studio引入了箱形折叠的离散化网格,但它求解的是连续松弛版本的打包问题,结果常常包含非正交的特殊延伸折痕,无法保证网格上没有空白,需要人工后处理才能生成有效的折痕图。

COrigami的核心贡献在于它是第一个能够在严格正交箱形折叠网格上,完全自动地、保证瓷砖拼贴无空白地完成打包,并自动求解到满足平面可折叠性的折痕图的系统——而且全程无需人工介入,输入仅是自然语言。代价是牺牲了一部分打包效率(网格可能比理论最优大一些),收获的是极高的自动化程度和更低的折叠难度。

当然,COrigami也有明确的局限。它目前只使用了简单折叠和窄化两种塑形工具,专业折纸师所用的各种复杂成形技术尚未被纳入。视觉语言模型的评审基于零厚度的数字模拟,无法预见真实纸张在叠层过多时产生的"纸张蠕变"问题——因此生成的折痕图只是一个数学上可行的起点,真正折叠成满意的物理作品还需要专业折纸师的手工介入和诠释。

九、一个AI时代的创作伙伴

说到底,COrigami的目标从一开始就不是取代人类折纸师,而是成为一个有用的创作起点生成器。

论文中有一张示意图展示了这一理念:Brandon Wong是参与这项研究的折纸艺术家,COrigami为他生成了一只壁虎、一只孔雀和一只甲虫的初始结构方案,而那些摆在图右侧的实体折纸作品,都是他在AI生成的折痕图基础上进行二次塑形后亲手折叠出来的。AI提供了骨架,人类赋予了生命。

这种分工本质上改变了折纸设计流程中最耗时的部分。过去,一个熟练的折纸设计师在着手一件复杂作品时,最耗时的不是最后的成形阶段,而是最开始的拓扑规划和打包阶段——如何在一张有限的纸上分配空间给所有肢体,如何让所有折痕的走向自洽。这个阶段可能需要数天乃至数周的反复试错。COrigami能够在这个阶段自动生成大量候选方案,让设计师从中挑选最有潜力的作为出发点,节省了大量机械性的探索时间,把创意留给创意,把数学留给算法。

从更宏观的视角来看,这项研究也是一个关于"如何在约束极强的领域中部署AI"的案例。折纸是一个物理约束与数学约束双重严苛的领域,AI在这里不能随便生成、事后验证,而是必须在生成过程中就遵守规则。研究团队的解法是把AI限制在它最擅长的部分(理解语义、评估美感、探索塑形空间),把规则检验交给确定性算法,两者通过精心设计的接口协作。这种神经符号协作的思路,对于其他同样需要在严格约束下进行创作的领域,比如建筑设计、机械设计或分子结构设计,或许同样有参考价值。

归根结底,COrigami做了一件并不容易却非常有用的事:它让"AI帮你折纸"这件原本听起来像天方夜谭的事,在数学上变得严谨,在实践上变得可行,在美学上变得值得期待。下一步要走向何方,也许就取决于折纸师们愿意把AI当成怎样的伙伴。

---

Q&A

Q1:折纸的"平面可折叠性"是什么意思,为什么它那么重要?

A:平面可折叠性是指一张按照折痕图折叠的纸,能够被完全压平成二维平面,同时纸张不能自我穿插或撕裂。这个要求在数学上非常严苛,折痕图上每个交叉点都必须满足川崎定理和前川定理两个条件,判断全局是否满足更是一个NP难问题。如果折痕图不满足这个条件,真实的纸张就根本无法被折成设计中的样子,整张折痕图也就没有实用价值。

Q2:COrigami生成的折纸模型能直接拿去折吗?

A:不能直接使用,需要专业折纸师的二次处理。COrigami生成的是基于零厚度纸张假设的数学模型,但真实纸张有厚度,在层数很多的地方会出现"纸张蠕变",折痕位置会偏移。此外,COrigami目前的塑形手段有限,生成的模型可能看起来比较方块,需要有经验的折纸师用湿折、沉折等高级技法进行精细成形。它更像是一个数学上可行的结构草图,而非完整的制作指南。

Q3:强化学习在COrigami中具体起什么作用?

A:强化学习负责COrigami流程的最后塑形优化阶段。算法塑形只能忠实地把骨架图转化为三维姿态,而骨架图本身可能有比例问题,且无法表达肢体宽度。RL训练的Gemini模型能够主动选择对哪些肢体施加窄化处理、在哪些位置增加额外折叠,由视觉语言模型的审美评分作为奖励信号,驱动模型发现让折纸看起来更像真实生物的参数组合,从而超越纯算法方案的表现。