除了之前我们提到的图像分类、物体检测、语义分割、视频分析四个核心任务,计算机视觉还会研究哪些课题?
计算机视觉和计算机图形学之间的区别是什么?
点击下方视频,你对人工智能的了解就能轻松超过全世界99%的人类!
这一季中增加了不少动画效果,不妨点开看看w
图文版本送给不方便打开的朋友(°u°) 」
在上一季中,我们提到计算机视觉有四个核心任务:图像分类(image classification)、物体检测(Object Recognition)、语义分割(Semantic Segmentation)和视频分析(Video Analysis)。
不过从核心任务到人脸支付、自动驾驶、影像辅助诊断等落地的真实应用,中间还衍生了许多同样很重要的任务。
比如人体姿态识别,可以让我们更好地理解运动员的动作方式,或是识别、预测人类的行为;
目标跟踪,即对视频中的人脸、车辆等目标进行持续的识别和跟随,在安防等领域有非常广泛的应用;
SLAM可以通过视频图像对现实空间进行重建,OCR则是识别图片中的字符,将图片转换为文字。
除此之外,还有边缘检测、细粒度识别、稠密运动估计等任务,我们会在接下来的视频中一一介绍。
这些任务之间交叉组合,有时还会结合 NLP 、语音识别等技术,最终才变成了真正的落地应用。
关于计算机视觉还有一个常见问题,计算机视觉(CV)和计算机图形学(CG)该如何区别?
计算机视觉输入的是图像或视频,输出的是对画面内容的理解,也就是对世界的理解。
而计算机图形学输入的是对虚拟场景的描述,输出的则是图像。
随着两者的共同进步,无论是算法还是解决问题的思路上都互有借鉴,不过基础的分界仍未改变。
下一期将从离我们生活最近、应用最广的人脸识别讲起,敬请期待。
「知智一分钟」是由「KnowingAI知智」推出的,以人工智能基础知识为主的短视频栏目。
每次一分钟,轻松了解 AI 领域基础概念!
领取专属 10元无门槛券
私享最新 技术干货