ECCV24牛津开源｜快速编辑3dgs场景，仅需9min左右

编辑：3DCV

添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附行业细分群。

扫描下方二维码，加入3D视觉知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门视频课程(星球成员免费学习)、最新顶会论文、3D视觉最新模组、3DGS系列(视频+文档)、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

摘要

我们提出了 GaussCtrl，一种提示词驱动用于编辑由 3DGS场景的方法。我们的方法首先使用 3DGS 渲染图像，并根据提示词使用预先训练的 2D 扩散模型 (ControlNet) 对其进行编辑，然后使用图像来优化 3DGS。我们的主要贡献是多视图一致编辑，它可以带来更快的编辑速度和更高的视觉质量。整个pipeline主要由两个部分组成：(a) 深度条件编辑，通过利用自然一致的深度图来强制多视图图像之间的几何一致性。(b) 基于注意力的潜空间对齐，通过图像的潜在特征的自我注意力和跨视角之间的注意力，将编辑的图像对齐参考视角，从而统一编辑图像的外观。实验表明，我们的方法比以前最先进的方法实现了更快的编辑和更好的视觉效果。

论文信息

Jing Wu1*, Jia-Wang Bian2*, Xinghui Li1, Guangrun Wang1, Ian Reid2, Philip Torr1, Victor Adrian Prisacariu1

1牛津大学2穆罕默德·本·扎耶德人工智能大学(MBZUAI)

论文：https://arxiv.org/abs/2403.08733网站：https://gaussctrl.active.vision代码：https://github.com/ActiveVisionLab/gaussctrl

方法

我们的方法实现了以深度为条件的多视图一致 3D 编辑。简而言之，给定一个待编辑的 3D 高斯分层 (3DGS) 模型，该方法可分为 3 个步骤：

从模型渲染 RGB 和深度图像。

基于 ControlNet 将所有图像反转为潜在特征，以深度为条件。

将所有视角与几个随机选择的参考视角对齐。

继续训练给定的待编辑 3DGS 模型以完成编辑。

先前的研究，如 Instruct-NeRF2NeRF 使用 Instruct-Pix2Pix进行图像编辑，从而生成高质量的单张图像。然而，确保这些图像之间的多视图一致性仍然是一个挑战，这种方法通常会导致视觉伪影和不稳定的编辑结果。

为此，我们通过 ControlNet 进行以深度图为条件的图像编辑，其中包括一个 U-Net 块和一个 ControlNet 块。由于深度是从 3D 模型中提取的，因此它们在多个视图中自然一致。通过根据这些一致的深度图对图像进行编辑，我们的方法有效地提高了所有编辑图像的 3D 几何一致性。

关于 DDIM Inversion的讨论：原始 ControlNet 用作生成模型，通常接受随机初始化的噪声作为输入，从而产生不同的结果。然而，对于编辑任务，我们采用不同的方法，将待编辑图像反转为噪声并将其用作 ControlNet 的输入。通过这样做，输出以原始图像为条件，更重要的是，在编辑过程中提高了多视图一致性。这是因为原始图像具有自然一致的颜色和几何形状，我们使用 DDIM 反演为所有待编辑图像获得一致的初始噪声，以实现一致的编辑。

虽然我们的深度条件编辑方法增强了几何一致性，但各个图像仍然是独立编辑的，这对外观一致性提出了挑战。尽管共享相同的编辑提示词，但编辑后的图像可能会出现颜色差异或产生奇怪的结果，尤其是在一些刁钻的角度下。

先前的研究，如Prompt2Prompt, Masactrl已经确定了扩散模型生成的图像外观与 U-Net 图像自注意机制中的键值对之间的关系。受此事实的启发，我们提出了一个基于注意的潜在特征对齐模块，该模块在编辑过程中明确将图像的外观与选定的参考视图对齐。因此，图像不再独立编辑；相反，它们的外观统一到一个共同的标准。这确保了编辑图像之间的更大一致性，并缓解了与外观差异相关的问题。

具体来说，我们首先将两个潜在特征和之间的注意力定义为：

其中、和是线性网络，用于获得注意力操作的Query、Key和Value，是scaling factor。

给定个参考图像的潜在特征，其中和时间步骤处待编辑图像的潜在特征，我们的对齐模块定义为：

其中。该模块将的自注意力和与每个参考视角之间的Cross-View Attention融合在一起。Cross-View Attention将所有编辑图像的外观与参考视图对齐，而自注意力则帮助每个编辑图像保留其独特性。我们发现这种设计显着提高了外观一致性并最大限度地减少了一些刁钻的角度处的异常。

实验结果

为了验证GaussCtrl的有效性，我们从多个现有数据集中收集了各种场景以供评估。具体来说，我们从 IN2N、Mip-NeRF360和 BlendedMVS数据集中收集了四个 360 度场景，并从 IN2N和 NeRF-Art数据集中收集了两个面向前方的场景。对于每个场景，我们都会在多个提示词上评估我们的方法。

我们主要将 GaussCtrl 与两种最先进的方法进行比较：Instruct-GS2GS ，这是 Instruct NeRF2NeRF (IN2N) 的最新更新，它用 3DGS 模型替换了 IN2N 中的 NeRF，以及 ViCA-NeRF，因为它们之间有相似之处。我们在以下段落中将 Instruct-GS2GS 表示为 IN2N(GS)。IN2N(GS) 和 VICA-NeRF 都采用 Instruct-Pix2Pix，它采用类似的提示词来编辑图像。我们的方法基于稳定扩散，使用描述性质的提示词。因此，同时修改我们方法中的提示词来进行编辑。为了确保公平比较，我们将所有数据集图像预处理为分辨率，并在同一数据上评估所有方法。我们提供更多直观的比较结果，包括与我们的补充材料中的 IN2N 的比较。

按照之前的方法 (IN2N)，我们使用 CLIP 文本图像方向相似性 () 来评估 3D 编辑与文本指令的对齐情况。

其余实验细节参考论文

总结

在本文中，我们提出了一种高效的多视角一致的编辑方法 GaussCtrl，该方法极大地缓解了 2D 编辑不一致导致的伪影和模糊结果，尤其是在 360 度场景中。基于待编辑的高斯模型，我们的方法通过在编辑的所有阶段（即深度条件图像编辑和基于注意的潜在特征对齐）的一致性增强来增强多视图一致性。我们评估了 GaussCtrl 在不同场景、提示词和待编辑物体上的性能。通过我们的实验，我们的方法优于其他最先进的方法。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿：具身智能、大模型、Mamba、扩散模型等

除了这些，还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群

DC生肖网

ECCV24牛津开源｜快速编辑3dgs场景，仅需9min左右

视觉科技工坊