尽管深度摄像头正在逐渐出现在许多手机手机品牌的高端机型上,但是单目、RGB摄像头仍然是占据绝大多数设备的主流。这也就导致了现有的AR技术仍然是基于平面,很难去获取环境的纵深。另外设备也很难捕捉并理解人体以及动作,无法表现更好的增强现实效果。
普及具备深度获取能力的摄像头仍需时日,而人们对于更好的AR体验的追求已经等不及了,如何在不添加传感器的条件下,让单目视觉设备具备对场景纵深的理解能力,对人物动作的追踪能力,成为增强现实视频公司Octi攻克的重点。
在iOS端,Octi推出了一款名为“Octi”的APP,已经可以在App Store下载体验
这款应用展示了他们的动态抠图技术
识别动态的尬舞人体,选择特效,例如变成透明人
将从别处抠下来的动态跳舞妹子放进同一个场景中
点击边框调出视频工具条
和时下流行的短视频结合起来似乎会有奇妙的效果。
在Octi的官网上能看到技术的简要说明。
首先是移动实例分割。
所谓实例分割,就是机器自动从图像中用目标检测方法框出不同实例,再用语义分割方法在不同实例区域内进行逐像素标记。换言之,就是当场景中出现很多人的情况下,实例分割能够区分出那些像素属于第一个人,哪些属于第二个人。
而Octi专有的人员实例分割方法能够实现在移动设备(手机)上以高帧率运行。
为了让机器具备理解人体及其运动的能力,Octi建立了成熟的机器学习和计算机视觉技术。
首先,它扫描人体,检测关键点比如眼睛、鼻子、臀部肘部等。
然后利用这些点来构建骨骼模型
Octi独特的3D重建技术结合使用神经网络和运动学模型,比同类方法具有更高的精度。
使用人的姿势、分割和一系列专有运动模型的先验组合,Octi在移动端实现了人体的体积重建。
看来Octi采用的便是被丸子酱点名批评过的,通过在模拟出的骨骼模型上套上一个粗糙的人体外壳完成的人体3D模型重建(
Facebook最新开源,普通RGB相机即可实时映射3D模型
)考虑到在手机端各方条件都受限制,不能强求更多,实用就好。
为了让单目RGB相机识别环境中的相对深度
Octi利用深度估计估计模型来区分图像的前景和背景(即物体的远近),这种能力加强了设备对于场景的语义理解,并且允许我们在不考虑背景噪声的情况下提取人的详细动作。
Octi日前确定了同NFL球员协会(美国国家橄榄球联盟)确定了投资战略和合作关系,球迷粉丝们可以通过Octi提供的技术同超过2000名橄榄球运动员进行视频形象互动,就像我们在文章开头看到的那样。
动作捕捉似乎是个和我们普罗大众相距甚远的技术条目,Octi此举却告诉了我们,我们可以利用这项技术做很多有趣的事情,而且仅需要一个配备单目摄像头的智能手机,就可以从场景中提取清晰人体动作,这将给AR技术的普及推广进一步推波助澜。
Octi不久前宣布获得750万美元投资,有了更多资金,Octi将继续完善其计算机视觉科学家、机器学习工程师的研究人员团队,或许能在技术上更进一步。
领取专属 10元无门槛券
私享最新 技术干货