编辑 / 陶昱璇
动态机器视觉(DMV)技术在视频分析、机器人视觉、自动驾驶技术和智能运输等多个领域,都起着至关重要的作用。而这其中的重中之重,是利用动态机器视觉来识别已发生的运动,并对目标未来的行动轨迹进行预测。
据了解,目前市面上的成像系统是利用包括传感器、信号转换器、存储器和处理器在内的多个模块,通过分析大量的逐帧图像序列和复杂的算法来识别和预测运动,但效率低且耗能高。
与此形成鲜明对比的是,人类的生物视觉结构可以准确对运动轨迹进行识别和预测,从而感知交通过程中的危险。受此启发,近年来有科学家抓住视觉短期记忆这一关键点,开发出具有记忆能力的视网膜形态图像传感器,如可切换的光伏传感器、非易失性光敏电阻和忆敏电阻。
此外,具有时空处理能力的传感器内储能计算系统也已被证明用于语言学习和图像分类。然而,目前还未能实现在一个紧凑的动态传感系统中对运动进行识别和预测。
现在,阿尔托大学的研究人员以人类视网膜为灵感,发明了一种新的视觉传感器。其可以在视频的单一帧中识别移动的物体,并成功预测物体的移动轨迹,有望成为动态视觉传感、自动检测、工业过程控制、机器人引导和自动驾驶技术等领域的重要工具。目前,相关研究成果已在Nature Communications上发表。
光敏电阻阵列:
窥一斑而知全貌
该项技术的核心是一种对光产生电流反应的电子装置:光敏电阻阵列。当光源被关闭时,其电流不会立即消失,而是逐渐衰减。这意味着,光敏电阻可以有效地「记住」它们最近是否被暴露在光线之下。
因此,由光敏电阻阵列制成的传感器具有独特优势:普通照相机只能记录场景的瞬时信息,但光敏电阻阵列传感器还可以对之前时刻进行动态记忆。
(上方为普通照相机,下方为光敏电阻阵列传感器。光敏电阻阵列传感器可以对之前时刻进行动态记忆。)
该研究的领导研究员Hongwei Tan解释说:「我们的发现是一个紧凑而高效的传感单元,其技术独特性在于,它能够在一个画面中整合一系列的光学图像,每幅图像的信息都作为隐藏信息嵌入到后面的图像中。
换句话说,视频中的最后一帧也包含有关于之前所有帧的信息。因此,我们可以通过使用简单的人工神经网络,只需分析最后一帧图像,便可检测视频中之前的运动轨迹。」
研究人员还采用了一个简单的试验来展示这一技术,他们分别向传统传感器和光敏电阻阵列传感器展示多个视频,视频的内容为英语单词,但是每次屏幕上只会显示一个字母。这些单词都以字母「e」结尾,比如苹果(apple)、葡萄(grape),所以视频的最后一帧都相同。
传统视觉传感器无法根据屏幕上最后出现的「e」来判断之前出现的字母有哪些,因此也无法判断完整的单词是什么。但光敏电阻阵列可以利用最后一帧中的隐藏信息来推断哪些字母在「e」之前出现过,从而判断出这个单词究竟是苹果(apple)还是葡萄(grape),且准确率接近100%。
除了视频识别文字外,光敏电阻阵列传感器也可以对运动进行识别。研究中,该团队给传感器播放了一个模拟人像以慢、中、快三种不同的速度移动的视频。
通常情况下,只用一帧就能识别一个完全对称的物体的运动方向是不可能的。然而,在这种新系统中,因为隐藏的记忆状态不同,三种运动速度下最后一帧的特征向量在也不同。同时,由于累积的照片记忆效应,来自先前物体位置的动态记忆状态的印记使传感器能够正确预测未来的轨迹。
此外,由于累积的动态光敏反应,当物体快速移动时,这种印记更强。利用运动印记的时空差异,研究团队训练读出神经网络来识别运动速度。令人惊喜的是,经过100次训练后,运动速度的测试准确率达到100%。
何时该减速?
预测运动轨迹来决定
安全和效率是未来智能交通和自动驾驶技术的最重要因素,而这需要对交通状况动态和准确识别和预测。为证明新系统在未来智能交通中的潜能,研究团队进行了一组模拟实验。
他们为一个机器人和一辆汽车都配备了新传感器系统,包括一个带有48×48个光敏电阻的光电电极管阵列(PMA)、一个用于速度识别的卷积神经网络(CNN)和一个用于轨迹预测的卷积自动编码器(CAE),然后让机器人和汽车在人行道上相遇。
其中,使用PMA的动态存储器对过去的运动帧进行训练, CNN从现在的帧中识别出物体的速度,平均测试准确率超过90%。PMA训练的CAE则正确预测了机器人和汽车的未来运动轨迹,且这种预测能力能在很长一段时间内奏效。
当汽车和机器人都接近人行道,汽车便会开始预测机器人所处的位置,从而决定是否需要减速,机器人也会根据预测的人行道位置,要么放慢速度,要么保持速度。
基于这些安全规则,研究团队可计算出汽车和机器人的视觉决策图。橙色部分表示减速,蓝色部分表示保持原速。
如果表示机器人位置的粉色点进入黄色区域,汽车便会进行减速。同理,若汽车位置进入橙色区域,机器人也会相应进行减速。
除此之外,人类大脑皮层会通过跨模态关联处理多模态环境信息。例如,在一个人预测危险的过程中,音频起到了重要作用。
在新系统中,研究团队将音频输入和运动识别预测联系起来。系统会将音频信号转换为梅尔倒频谱系数(Mel- frequency cepstral coeficients,简称MFCC)特征,运用一个深度神经网络处理这些特征,从而跨模态识别第一帧运动。
例如,对系统输入如下音频信号:「一个人在向右移动」、「一个人在向左移动」、「一辆车在向右移动」和「一辆车在向左移动」。与这些音频输入相对应的MFCC特征将对深度神经网络进行训练,从而对运动进行跨模式识别。这将进一步加强机器人动态视觉,可用于人机交通通信、自动驾驶和智能交通技术。
「我们的方案为自主机器人和人机互动提供了新的机会。我们在系统中使用光敏电阻获得的帧内信息避免了多余的数据流,实现了实时的能源效率决策。」研究团队的Sebastiaan van Dijken教授表示,这项技术能为自动驾驶带来怎样的突破,让我们拭目以待。
领取专属 10元无门槛券
私享最新 技术干货