谷歌给NeRF动了个小手术，2D变3D，照片视角随心换-技术圈

来源：arxiv等

编辑：白峰

最近，来自谷歌Research和谷歌Brain的一组研究人员开发了一个深度学习模型，仅使用非结构化的野外图片集合就能合成复杂的户外3D场景图。

3D场景重构神器：神经辐射场

对于计算机视觉模型来说，使用多个摄像机角度和光照条件合成一个场景的三维视图是非常困难的，也是 AR 和 VR 应用的重要前提，为了摆脱传统体积渲染的束缚，神经辐射场（NeRF）应运而生。

神经辐射场使用多层感知器的权重隐式建模场景的体积密度和颜色。

关于神经辐射场的具体信息，下面这个视频做了很好的诠释，来看下它有多「神经」吧！

我们先来回顾一下NeRF，神经网络直接从空间位置和视角(5维输入)映射到颜色和不透明度(4维输出) ，来充当「体积」。

NeRF算法使用完全连接的(非卷积)深度网络表示场景，输入为单个连续的5D坐标(空间位置(x，y，z)和查看方向(θ，φ))，输出是在该空间位置的体积密度和与视图相关的亮度信息。

虽然NeRF可以很好地处理受控状态下拍摄的静态图像，但无法在变化的环境中建模，例如光影的变化、出现临时遮挡物等，谷歌研究人员之所以把新模型命名为野外的NeRF(NeRF-W)，意思就是不受环境约束的。

该模型能够在不影响场景三维几何形状的情况下，捕捉到室外的光照变化，并重构场景。

NeRF-W可以通过一组稀疏的输入视图集来优化基础的连续体积场景功能，从而获得用于合成复杂场景的新视图。

也就是说给它一组2D图片，它就能自动学习到各种光影、估计各部分的体积密度，从而重构完整的3D图像。

在户外摄影中，不同的时间和气候条件会影响场景中对象的照明，所以NeRF-W扩展了NeRF，以允许图像依赖外观和照明的变化，从而可以显式地建模图像之间的光照差异。

NeRF-W架构

我们来看NeRF-W的整体架构。给定3D位置r(t)，观察方向d，外观嵌入li(a)和瞬态嵌入li(τ)，NeRF-W会产生差分不透明度σ(t)，σi(τ)(t)，颜色ci(t)，c(τ)i(t)和不确定性βi(t)。

通过这种低维嵌入空间来控制 NeRF 的辐射场，不仅赋予了 NeRF-W 模型「大师级」的灯光能力，还能够从新的角度「重新点亮」一个场景。

需要注意的是，静态不透明度σ(t)是在外观嵌入li(a)之前生成的，以确保在所有图像之间共享静态几何体。

现实中的场景对象很少是孤立的，常常会碰到干扰，比如突然出现的行人。通过NeRF-W的架构图，可以看到它允许对瞬态对象进行联合估计，并将它们从3D世界的静态表示中解耦出来。

对于瞬态目标，NeRF-W引入了一个含有不确定性场的二次体积辐射场。前者显式捕获瞬态物体，后者捕获穿过部分三维空间的像素颜色的不确定性。

有了NeRF-W的这些估计信息，模型会搜索相机光线的5D坐标来合成视图，并使用经典的体积渲染技术将输出的颜色和密度信息投影到图像中。

一些用于训练的图像

研究人员使用了 TensorFlow 2和 Keras 进行建模，在8个 NVIDIA V100 gpu 训练了300,000步才达到现在的效果。

所以，如果你想自己训练，不光需要一个公开的Lego数据集，还要8个「烧钱机器」V100。不过作者稍后会放出训练好的模型，可以直接拿来重构自己的风景画了！

参考链接：

https://arxiv.org/pdf/2008.02268.pdf