旧的模型很难处理2D图像的深度问题,但新的神经网络可以轻松处理这些问题。
最近,一组计算机科学家利用人工智能对联合国教科文组织世界遗产中丢失的浮雕板进行了3D重建。
研究人员开发了一种神经网络,可以拍摄三维物体的单张2D照片并产生三维数字重建。 实际上,他们开发了一款适用于21世纪的立体镜。 该团队上个月在第32届ASM多媒体会议上展示了其概念验证。
为了研究的目的,科学家们使用了被联合国教科文组织列为世界遗产的印度尼西亚婆罗浮屠神庙的浮雕图像。这座寺庙有2672幅浮雕,是世界上最大的佛教浮雕收藏地。在19世纪后期,寺庙的底部被重新安装,将156个浮雕隐藏在石墙后面,直到今天它们仍然被埋葬。但在他们被埋葬之前,每个面板都被拍摄了灰度照片。最近,研究小组的神经网络利用一张134年前的黑白老照片,成功地重建了其中一个现已被隐藏的浮雕。
之前曾有过尝试,但这些早期的重建无法复制浮雕的细节。由于深度值的压缩,这些细节丢失了;换句话说,这些三维浮雕具有离观者最近和离观者最远的雕刻的细节,而之前的重建尝试使这些不同深度的细节变得平坦。该团队将丢失的特征称为“软边缘”,并根据计算出的三维空间曲率变化绘制了这些边缘的地图。
在这篇新论文中,研究小组认为,现有的边缘图降低了模型的准确性,它不能正确地传达3D曲率的变化,而且它被纳入网络的方式限制了它对估计物理对象深度的影响。
日本立命馆大学(Ritsumeikan University)研究员、该研究的合著者田中智(Satoshi Tanaka)在一份大学新闻稿中说:“尽管我们的重建准确率达到了95%,但人脸和装饰等更精细的细节仍然缺失。这是由于二维浮雕图像中深度值的高度压缩,使得很难提取沿边缘的深度变化。我们的新方法通过增强深度估计来解决这个问题,特别是在软边缘,使用一种新的边缘检测方法。”
上面的图像代表了该团队对样本浮雕的软边缘地图(左)和语义地图(右)的最佳实验结果(下一行),与地面真实数据(上一行)进行了比较。边缘图就是这样 —— 它追踪地形曲线赋予深度的点,这让早期的模型感到困惑。
语义图 —— 隐约让人想起Ellsworth Kelly的《蓝绿红》 —— 展示了模型的知识库如何将相关概念联系起来。在这张图片中,该模型区分了前景特征(蓝色)、人物(红色)和背景。研究人员还将他们的模型与其他最先进的模型相比,与地面真实图像的关系进行了比较。
人工智能受到了抨击,但在科学领域,它被证明非常擅长解决图像识别和文化遗产保护方面的问题。今年9月,另一个团队使用神经网络识别拉斐尔画作中以前未见过的细节,另一个团队使用卷积神经网络将已知的纳斯卡线(秘鲁著名的地理符号)的数量增加了近一倍。
该模型能够进行多模态理解,这意味着它能够接收多个数据通道来理解其目标对象。在这种情况下,用于测量浮雕曲线的软边缘检测器不仅可以看到亮度的细微变化以感知深度,还可以看到雕刻本身的曲线。利用这两种信息渠道,新模型比以前的尝试更清晰、更详细地重建了浮雕。
田中说:“我们的技术在保护和分享文化遗产方面具有巨大的潜力。”“它不仅为考古学家提供了新的机会,而且通过VR和虚拟世界技术为沉浸式虚拟体验提供了新的机会,为子孙后代保护了全球遗产。”
文化遗产需要保护。但有些文化遗产尤其受到威胁,虽然这些人工智能生成的重建不能取代真正的麦考伊,但它们有其用途。像最近这篇论文中描述的神经网络一样,只要在增强现实或虚拟现实环境中,就可以复活只存在于图像中的失落遗产 —— 例如,2001年被塔利班炸毁的巴米扬大佛(Bamiyan Buddhas)。
这些模型还可以用来保护濒临毁灭的文化遗产,比如澳大利亚塔纳米沙漠(Tanami Desert)上有几百年历史的土著boab树上的雕刻。
文化遗产通过我们之前的社区和文化来定义我们是谁。如果这些人工智能模型能帮助艺术史学家和文物保护学家保存一段历史,那么它们就做得很好。当然,人工智能模型也需要大量的能量,这可能会以间接的方式导致文化遗产的流失。但是,即使人工智能的驱动方式仍然存在问题,将这项技术用于公益事业也是站在历史的正确一边 —— 尤其是在人工制品方面。
如果朋友们喜欢,敬请关注“知新了了”!