画个框、输入文字，面包即刻出现：AI开始在3D场景「无中生有」了-品论天涯网

声明:本文来自于微信公众号机器之心（ID:almosthuman2014），作者:机器之心，授权站长之家转载发布。QtF品论天涯网

现在，通过文本提示和一个2D 边界框，我们就能在3D 场景中生成对象。QtF品论天涯网

看到下面这张图了没?一开始，盘子里是没有东西的，但当你在托盘上画个框，然后在文本框中输入文本「在托盘上添加意大利面包」，魔法就出现了:一个看起来美味可口的面包就出现在你的眼前。QtF品论天涯网

QtF品论天涯网

房间的地板上看起来太空荡了，想加个凳子，只需在你中意的地方框一下，然后输入文本「在地板上添加一个矮凳」，一张凳子就出现了:QtF品论天涯网

QtF品论天涯网

相同的操作方式，在圆桌上添加一个茶杯:QtF品论天涯网

QtF品论天涯网

玩具旁边摆放一只手提包统统都可以:QtF品论天涯网

QtF品论天涯网

我们可以从以上示例看出，新生成的目标可以插在场景中的任意位置，还能很好地与原场景进行融合。QtF品论天涯网

上述研究来自苏黎世联邦理工学院和谷歌，在论文《InseRF: Text-Driven Generative Object Insertion in Neural3D Scenes》中，他们提出了一种名为 InseRF 的3D 场景重建方法。InseRF 能基于用户提供的文本描述和参考视点中的2D 边界框，在3D 场景中生成新对象。QtF品论天涯网

QtF品论天涯网

论文地址:https://arxiv.org/pdf/2401.05335.pdfQtF品论天涯网

项目地址:https://mohamad-shahbazi.github.io/inserf/QtF品论天涯网

项目主页:https://mohamad-shahbazi.github.io/inserf/QtF品论天涯网

在与其他方法的比较中，对于要求在玩具旁边渲染出一个杯子，I-N2N 直接改变了玩具原来的模样， MV-Inpainting 给出的结果更加糟糕，只有 InseRF 符合要求。QtF品论天涯网

QtF品论天涯网

从左到右分别是原场景、 I-N2N 方法、 MV-Inpainting 以及 InseRFQtF品论天涯网

这项研究重点关注在3D 场景中插入生成对象（generative object insertion），这种方式在跨多个视图的同时还能保持一致，并且新生成的对象可以摆放在场景中的任意位置上。QtF品论天涯网

一般来讲，使用2D 生成模型在3D 场景中插入生成对象是一项特别具有挑战性的任务，因为它需要在不同视点中实现3D 一致的对象生成和放置。一种简单的方法是使用3D 形状生成模型单独生成所需的对象，并使用3D 空间信息将它们插入场景中。QtF品论天涯网

然而，这种方法需要3D 对象的准确位置、方向和比例。此外，与场景无关的对象生成可能会导致场景的样式和外观与插入对象之间的不匹配。QtF品论天涯网

本文提出的 InseRF 很好地解决了上述问题，能够使用对象的文本描述和单视图2D 边界框作为空间指导，在3D 场景中进行场景感知生成和插入对象。QtF品论天涯网

方法介绍QtF品论天涯网

本文将3D 场景的 NeRF 重建、要插入目标对象的文本描述以及2D 边界框作为输入。输出结果会返回同一场景的 NeRF 重建，并且还包含在2D 边界框里生成的目标3D 对象。QtF品论天涯网

值得注意的是，由于研究者还会用扩散模型先验来进行精确的2D 定位，InseRF 只需要一个粗略的边界框就可以了。QtF品论天涯网

InseRF 由五个主要步骤组成:QtF品论天涯网

1）基于文本提示和2D 边界框，在选定的场景参考视图中创建目标对象的2D 视图;QtF品论天涯网

2）根据生成的参考图像中的2D 视图重建3D 对象 NeRF;QtF品论天涯网

3）借助单目深度估计来估计场景中对象的3D 位置;QtF品论天涯网

4）将对象和场景 NeRF 融合成一个包含估计放置物体的单个场景;QtF品论天涯网

5）对融合的3D 表示应用细化步骤以进一步改进插入的对象。QtF品论天涯网

QtF品论天涯网

编辑参考视图QtF品论天涯网

编辑 pipeline:首先选择场景的一个渲染视图作为参考，并根据用户提供的文本提示和2D 边界框插入目标对象的2D 视图。参考视图用于提供参考外观和位置来为3D 插入奠定基础。QtF品论天涯网

为了确保输入边界框中的局部2D 插入，本文选择掩码条件修复方法作为2D 生成模型。具体来说，他们选择 Imagen，这是一种强大的文本到图像扩散模型，并通过使用 RePaint（一种使用扩散模型进行掩码条件修复的方法）进一步使其适应掩码条件。QtF品论天涯网

单视图对象重建QtF品论天涯网

获得参考编辑视图后，本文提取边界框内生成对象的2D 视图并构建其3D 重建。本文建议利用最新的单视图对象重建范式，即使用3D 感知扩散模型。此类重建方法通常在大规模3D 形状数据集（例如 Objaverse ）上进行训练，因此包含对3D 对象的几何形状和外观的强大先验。QtF品论天涯网

本文使用最近提出的 SyncDreamer 进行对象重建，它在重建质量和效率之间提供了良好的权衡。QtF品论天涯网

实验QtF品论天涯网

该研究在 MipNeRF-360和 Instruct-NeRF2NeRF 数据集上进行了评估。QtF品论天涯网

此外，该研究还将 InseRF 与基线方法进行了比较，包括 Instruct-NeRF2NeRF （I-N2N）、 Multi-View Inpainting (MV-Inpainting) 。QtF品论天涯网

为了评估 InseRF 生成插入对象的能力，该研究在图3中提供了将 InseRF 应用于不同3D 场景的可视化示例。如图所示，InseRF 可以在场景中插入3D 一致的对象。值得注意的是，InseRF 能够在不同表面上插入对象，这在缺乏精确3D 放置信息的情况下是一项具有挑战性的任务。QtF品论天涯网

QtF品论天涯网