以NeRF为代表的神经渲染技术发展迅速,学术界不满足于合成一些新的视角来移动照片。

接下来要挑战的是基于照片直接输出三维模型,让它可以直接导入电影、游戏和VR等图形线。

所使用的照片并非来自高质量的数据库,而是直接从网上收集游客拍摄的各景点、设备、天气、距离角度等不一致。

生成的结果是结构完整、细节丰富,如果有VR设备,还可以直接在Demo上预览三维版本。

这一最新突破将由浙江大学和康奈尔大学团队合作完成,登上图形学巅峰会SIGRAPH2022。

在那之前,由同种技术产生的3D模型甚至不能完全成形。

看到这里,网友评论说这个领域的进展比人们想象的要快。

“慢慢学习,等等”。

那么,这项研究是由什么突破的呢。

具体地说,结合两种采样方案,本研究的基本框架是参考NeurIPS2021上的NeuS来结合隐式神经标准和体积渲染的方法。

然而,使用基于球体的采样方法适用于近景、小物体。

用于复杂结构的大型建筑物时,会在空白区域采集大量采样点,增加不必要的计算压力。

为了解决这个问题,研究人员提出了一种混合体素导向(Voxel-guided)和表面导向(Surface-guided)的新采样方法。

体素导向可避免不必要的浪费,并可将训练所需的辐射减少30%。

结合表面导向,提高实际曲面周边的采样密度,使神经网络更加拟合,不丢失细节。

在消融实验中,发现仅使用体素诱导方法收敛比基于球体的方法快,但不像混合方法那样详细。

与以往类似的研究相比,新方法生成模型的完整性和详细性更为优越。

训练速度也有明显优势,尤其是在大型场景墨西哥城美术宫(PBA)

◆Ours是完全收敛的结果,带有小人图标的是训练中的检查

当然,新方法也并非完全没有缺点。

继承自NeRF的限制是,如果摄像机位置的校准存在偏差,则会影响最终结果。

另一个难以解决的问题是不能正确重建无法拍照的建筑物的背面和内部。

One More Thing最后补充说。浙大团队的一些成员以前也在研究神经3D人体重建。

可用于视频播放,为体育比赛提供自由视角。

也变成了666。

论文地址:https://arxiv.org/abs/2205.12955

GitHub仓库:https://zju3dv.github.io/neuralrecon-w/

参考链接:[1]https://zju3dv.github.io/neuralbody/