近年来,虚实结合的地图概念逐渐兴起,不管是AR地图还是VR地图,甚至Metaverse、Cyberverse,仿佛都预示着未来1:1还原现实的虚拟世界终将来到。
但这些大规模的虚拟世界/地图,需要依靠大量数据支撑。目前,覆盖面最广的VR地图之一非谷歌街景莫属,其通过出借全景相机等众包方式,收集了来自世界各地的360°地图影像。
而对于现在的AR地图领域,此前被Facebook收购的AR云公司Scape曾花费大约一年时间去收集环境数据,通过移动设备摄像头和计算机视觉算法来识别地理位置。但这还远远不够,而Niantic在收购3D地图厂商6D.ai后,在前不久才通过《Ingress》和《精灵宝可梦Go》LBS AR游戏,获取几十万个基于真实地理位置的3D数据。
总之,大规模的Metaverse或AR虚拟世界还未成型,很期待看到下一个推出街景地图规模的AR地图会是哪家公司。当然,或许未来的AR地图市场还将由谷歌主导,因为从谷歌最新的研究成果来看,他们似乎已经掌握快速从众包数据生成3D相片的方案,并计划将它应用于AR/VR中。
据青亭网了解,通常根据真实场景重建精准逼真的3D地图模型并不容易,谷歌科研人员为了简化这一流程,训练了一个基于NeRF(神经辐射场)的学习算法,可通过同一场景的几张网络照片合成多个视角,实现3D效果。
简单来讲,NeRF的原理是通过分析光线终止的位置,来从2D图像提取3D深度数据。这种技术可为真实场景重建出外观和纹理足够可信的3D模型。
谷歌科研人员表示:通常,NeRF算法适用于处理可控环境中捕捉的静态图像,但并不适应光线、遮挡等不可控的因素。这是因为,NeRF将环境的几何、材质和光线视为不变,而整个环境的密度和光亮则为恒定。对于NeRF来讲,在同一地点拍摄的两张照片需要具备接近的像素密度,这对数据的要求更高,毕竟即使是同一时间拍地点拍摄的两张照片也可能出现曝光、校色、色阶等方面的差异(由于摄像头参数和后期处理的不同)。
由于这种技术局限,NeRF难以直接用于生成大规模3D户外场景,因为这将需要处理数小时、数日甚至数年时间拍摄的图片,其中包含的行人、汽车等变量更难控制。
而本篇中描述的学习算法(NeRF-W)是对NeRF的一个延伸,可解决上述问题,并从网络图片生成准确度高的多视角3D场景图。谷歌的NeRF-W系统与NeRF相比有多方面提升,特点是视觉效果逼真、空间场景连贯,而且只使用普通网络图片即可。
原理方面,NeRF-W先是处理网络图片并生成多个角度,接着进一步分析并识别场景结构,然后分离出图像曝光、场景光线、后期、天气状况、每一帧差异(同样场景帧画面变化)等图像和环境差异信息(光线、阴影变化),并后期处理处低维度潜在空间。
根据GLO(Generative Latent Optimization)框架,为每张照片优化外观嵌入元素并在不影响3D结构的情况下加入插值。最后,NeRF-W通过识别图像和环境在不同照片中的相似之处,为结构几何和纹理等静态元素生成能具有3D体积感的过渡,并将过渡元素与分解的场景融合。
据悉,利用NeRF-W生成的3D场景图并不存在明显的抖动或瑕疵,该方案采用的光线系统会利用识别到的变化去生成场景的光影变化。但输入NeRF-W系统的多个图片存在特定目标差异时,这些差异会被识别为位置区域,并被消除或降低明显程度。这与标准的NeRF系统有很大不同,NeRF通常会将不自然的差异显示为云雾状遮挡物,原因是没有将其与图像结构分离。
从谷歌公布的视频来看,NeRF-W生成的3D场景已经达到足够立体的效果,不管是用于VR全景地图,还是与AR内容结合,效果都足够好。
尽管如此,谷歌表示:通过图像数据重建3D户外场景依然存在需要解决的问题,比如照片中不清晰的部分难以保持高质量3D重建,而且NeRF-W对于摄像头校正误差也比较敏感,可能会造成3D场景中出现过度模糊的问题等。
总之,NeRF-W提供了一种通过网图就能生成多角度3D图像的方案,它最直接的应用场景可以是VR或全景地图,相当于将基于360°全景图像的街景地图变得更加立体,更具沉浸感。同时,也有助于为AR地图的大规模铺开提供可能。参考:VentureBeat
领取专属 10元无门槛券
私享最新 技术干货