首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Google能以深度学习重建动态人物视频的深度信息

Google发布了最新的计算机视觉研究,现在他们能够使用深度学习,良好地推测出一般视频中人物与场景深度信息,而这个深度信息能够进一步应用在合成视频中,产生像是散焦视频,或是加入摇摆镜头等特效。Google提到,之前虽然有其他研究对视频场景深度进行预测,但这项研究是第一个,能够处理摄影机以及物体同时移动的视频。

人类的眼睛与大脑可以从2D投影回推3D世界,即便在多个移动物体的场景,也能够理解物体几何形状的变化以及深度排序(Depth Ordering),而过去在计算机视觉发展的过程,人类以2D图像数据重建3D场景几何结构,试图让计算机也拥有相同的能力,但是在部分的案例上,依然很难取得足够稳定的成果,Google提到,特别是在场景的物体以及摄影机都在移动的时候,计算机特别难以正确计算深度。

因为基于三角测量的3D重建算法前提,同一物体至少要被两个不同的视点观察到,而要满足这样的条件,需要使用摄影机数组,如果只使用单一摄影机拍摄,则需要且只能移动摄影机,并保持其他场景物体静止。不过,无论什么方法,对于场景中移动的物体,现有的算法皆无法良好的处理。

Google最新研究成果的特别之处,在于他们使用深度学习,让模型习得人类的姿势与形状,由模型填补人物区域的深度值,避免进行直接3D三角测量而导致错误的结果,Google表示,这篇论文之所以针对人物研究,是因为人是增强实境与3D图片效果的重要主题。

研究人员使用YouTube上视频,他们找到两千个以手持摄影机,拍摄人类以各种静止姿势,模仿衣服模特儿假人的视频,让模型进行监督式学习,习得人类各种静止的自然姿势,且由于整个场景都是静止的,只有摄影机在移动,因此Google可以取得包括人物在内,整个场景精确的深度信息。

Google提到,要以监督式的方法训练深度模型,需要提供模型场景视频以及精确的深度图(Depth Map),除了要取得自然的人类行为,还要将真实的场景纳入考量,以虚拟建模后渲染,以取得大量训练数据有其困难度,而使用像是Kinect这类RGBD传感器,通常仅限于室内场景,并且该领域还有其他待解决的3D重建挑战,因此Google最终考量,还是使用YouTube视频。

计算训练数据深度信息由两个步骤组成,先找出静态的深度,再算出动态的部分。Google使用运动视差,就能从两个视点观测单一静态物体,以取得深度信息,Google计算了不同时的两个影格像素位移量(2D Optical Flow),而决定该位移量的变量有场景的深度,以及相机的相对位置,而由于相机位置为已知信息,因此模型就能推算出初始的深度图。

而初始的深度图仅包含静止的部分,为了要处理视频中移动的人物,Google会先将初始深度图的人物以遮罩遮掉,作为输入信息的一部分,完整输入回归网络的数据,包含RGB图像、人物遮罩,以及用遮罩处理过的视差深度图,而该回归网络的工作,就是用来修复人物区域的深度值,Google提到,由于人物具有大同小异的形状以及尺寸,因此网络经过样本学习后,就能推测出人物的深度信息。

经过训练之后的模型,可以处理相机与人物随意运动的视频,而找出人物和场景的深度值,就能为视频加入3D感知的特效,像是为视频加入景深,合成散焦特效,也能进一步重置为立体的视频,或是将CG对象放到视频中,而结合不同影格的图像信息,还能做出摇摆摄影机的功能(下图)。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190528A0TOCU00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券