计算机视觉是机器的双眼,是实现自动驾驶汽车、机器人视觉的关键技术。人类有两只眼睛,所以我们能够自然地感知深度。但是,当计算机视觉应用程序依赖于一个摄像头来捕获和解释周围的世界的时候,丢失的第三维限制了计算机视觉的性能。所以需要摄像头阵列,也就是通常在不同位置设置的多个摄像头来拍摄多帧图像,并且根据多帧图像间的细微差别来估计深度。常见的是,两个摄像头的位置设置的稍有距离,以模仿人的双眼。拍摄空间中每一个点,分别从两个摄像头拍摄,能的大两个图像,而这两帧图像会都略有区别,根据几何学,这个区别,我们可以计算该点的深度。
一. 「深度」传感器,深度应用
深度传感器可以提高计算机视觉的战斗力已经不是什么秘密,智能手机已经在这个领域应用的非常广泛。比如以下这些耳熟能详的科技应用方向都已经有了深度传感器的身影。深度传感在计算机视觉中的应用:
1. 虚拟现实和增强现实:用于感测真实三维环境并在虚拟世界中重建它们
深度传感的信息对于虚拟现实和增强现实设备的人机交互也是必需的。设备必须准确响应用户的三维运动,这肯定需要高性能的深度传感器。
2. 机器人:用于导航、定位、映射和避免碰撞
许多仓库已经在利用完全自动驾驶的车辆将物体从一个地方运输到另一个地方。车辆自行移动的能力需要深度传感器,以便能够知道自己在所在环境中的位置、其他物体的位置,以及最重要的是如何安全地从A到B。同样,任何机器人都可依赖于深度感知来了解目标对象的位置以及如何获取目标对象。
3. 自动驾驶
这些相同的应用对任何自动驾驶汽车的成功至关重要。事实上,目前自动驾驶汽车面临的最大挑战之一是为汽车配备精确的深度传感器和计算机视觉系统,而不会过度增加成本。这仍然是一个竞争激烈的市场,许多创业公司正在争夺赛道中的最佳位置。
4.面部识别:防止欺诈
大多数面部识别系统通过人脸算法以确定人员的身份。然而,此处的漏洞就是没有深度传感技术的设备无法分辨人脸还是普通相片。但是三维面部建模可以传达更多面部特征,深度传感技术的三维相机目前已经非常普及了,想拿照片骗门禁,门说,“你侮辱我的智商。”
5. 手势检测:用于游戏等。
在简单实现中,深度传感器仅需要检测一个点的深度信息,例如用于手势检测的手。因此,具有简单光学的深度感测系统就足够了。随着手势检测的发展,使用了更复杂的深度传感系统。
二、计算机看到的世界,需要区分图像的内容
谈到如何区分图像的内容,就要提到语义分割。语义分割意味着将图片分成多个有意义的部分。就像你透过窗户看到的那样,你将整个画面划分为天空、汽车、高楼以及视野中的任何东西。
在计算机眼中是这样一张街景图,通过简单的语义分割,给出路面、天空等的大概位置,我们就可以生成一张最终图像。大家可以看到完整的车、路、房子的高质量生成结果。这也是图像分析的关键:如果分割不良,后续任务的性能也会降低。由于我们有两只眼睛并且可以利用三维的视图,分割是很自然的。传统的计算机视觉只有一个摄像头,因此分割主要基于统计建模。目前,通过典型的关键线索,例如颜色、边缘、纹理等的变化,也就是在提取特征,所以计算机视觉的相关研究方向也可以由此展开。计算机如何描述图像?通过特征来描述。
谈到究竟要看的多深,室内智能监控设备可能只需要几米的范围、普通的相机阵列的最佳性能测量范围通常在10米左右、自动驾驶汽车则需要几百米。其次光线、位置都会影响计算机看到的效果,以及后续的计算问题。下一步,通过计算才能知道离多远?那是啥?在哪里?
因此,深度传感可以成为未来智能移动图像和机器人应用的关键推动因素。
三、数据是瓶颈
但是目前,基于三维感知的计算机视觉算法的主要瓶颈仍然是数据集。虽然数据增强和其他技术可以在没有大量数据的情况下帮助训练一个体面的三维信息神经网络,但最终我们需要一个大型数据集(如2D数据集的ImageNet和Microsoft COCO)来训练和测试优化的神经网络。
其他方面,相机阵列部署方便,成本也很低,其开发工作主要在软件方面。双摄像头解决方案已经广泛用于许多智能设备和智能手机中。我们需要更好的算法来扩展其深度传感性能。改进硬件也无济于事。这个问题更像是一个数学问题,而不是一个工程问题。(完)
亲爱的数据
出品:谭婧
美编:陈泓宇
领取专属 10元无门槛券
私享最新 技术干货