麻省理工学院的科学家们日前宣布其找出了一种从“运动模糊”类视频帧中恢复细节以复制清晰图像的方法。这种名为“视觉反投影模型(visual deprojection model)”的方式通过卷积神经网络(convolutional neural network,CNN)对图像进行解析。
图自麻省理工学院官网
通常我们将捕获到的将时间与空间等多个维度数据折叠到单维度或者二维的“投影”称为“图像”,如X射线将三维的人体结构投影为二维的X射线照片,而拍摄星轨则是捕获星星在时空中运动的轨迹给投影为图像。
图自Owen Beard on Unsplash
来自麻省理工学院计算机科学与人工智能实验室(Computer Science & Artificial Intelligence Laboratory,CSAIL)的研究人员通过扫描数以千对由低维度的图像(投影)和与该图像源(信号)的高维度信息来对CNN进行训练,而神经网络则在训练中利用这些信息不断学习像素模式以及它们产生的原因,进而从本质上对模糊效果进行逆向工程。
图自 Jeff Golenski on Unsplash
比如在一段汽车疾驰而过的视频中,由于运动模糊的原因,通常情况下除了能分辨出这辆车是橙色以外啥也不知道。(再次强调电影中那种能够将监控中模糊的车牌或者人脸还原出来的黑科技是魔法,现实中目前并不存在。)而通过“视觉反投影模型”,则可以通过拍摄这些镜头来还原一个清晰的图像模型。
图自 Alasdair Elmes on Unsplash
CSAIL博士后,论文的主要作者Guha Balakrishnan说到:“我们能够恢复此类细节简直就像魔法一样。”
除了上述的简单例子,研究人员有一个更为大胆的想法:在医学领域应用此模型一定大有可为。(该说不愧是科学家吗,想法不光大胆,还有点崇高。)他们相信这项技术可以用照X光的方法来生成打CT的3D扫描。在核磁共振(MRI)和CT设备仍然昂贵的当下,这种软技术的突破将极大降低医学3D成像的成本。
该模型的特性决定了其具备将能够用相对便宜的方式从低维信息图像(如X射线)中重新建高维信息图像的能力。Balakrishnan表示:“如果我们能将X光转换成CT扫描,那将在一定程度上改变游戏规则。”“你只需拍一张X光片,把它加载到我们的算法中,就能看到所有丢失的(高维度)信息。”
小狮子最喜欢的鸡腿 分割线
领取专属 10元无门槛券
私享最新 技术干货