伴随着深度学习技术的不断发展,大规模视觉数据集的大量涌现5以及硬件资源的快速更新(例如GPU、FPGA等),传统的视觉理解任务(例如图像分类、物体检测、语义分割等)已经取得了巨大的进展,精确度甚至超过了人类。现有的深度学习侧重于设计更优的网络结构,例如目前工业界和学术界常用的VGG网络、谷歌网络和残差网络等。然而,视觉场景的理解不仅仅依赖于其外观和几何信息,还依赖于高层常识知识的引导和推理。人类之所以可以更好地理解其所看到的场景,就是因为人类了解很多领域关联的先验知识,并能够基于这些知识进行学习和推理。而现有的大多数视觉理解算法依赖于大量标注数据拟合大量参数进行预测,忽略了这些先验知识,在一定程度上限制了其性能的提升,并存在一些问题:(1)缺乏有效的引导,机器难以自适应地挖掘具有判别性的视觉特征;(2)难以泛化到只具有少量样本的类别;(3)把深度网络当成黑盒使用,无法进行有效的推理,缺乏可解释性。另一方面,为适应智能机器人、无人汽车等产业的高速发展,视觉任务从简单的分类、检测,发展到更精细、更丰富的高层场景信息理解(例如物体视觉关系分析、视觉问答、机器人任务规划等)这一类任务若仅依赖于场景的外观信息进行建模是难以完成的,更需要常识知识的引导和推理。
如何表达丰富的领域知识(例如,特定场景下视觉关联先验信息和高层常识知识等),并将其自然地嵌入深度网络模型中,以辅助视觉概念学习和推理,是当前计算机视觉领域研究亟待解决的重要问题。鉴于此,研究者们引入“结构化知识图谱”或者“知识与或图”来表达丰富的领域知识,并进一步探索和深度网络模型相结合的方法,从而推进视觉更透彻的解析。
融合知识的特征表达学习,学习具有强大表达能力的特征是很多视觉理解任务的基础,这类方法通过引入视觉概念(例如物体类别和属性)之间关联的先验信息,引导模型学习语义关联的特征,从而提高特征的表达性和判别性。
融合知识的特征表达学习:
设计和学习具有强大判别能力的特征是很多视觉识别任务的基础,传统的方法需要手动设计特征,例如SIFT、HOG等。而最新的视觉理解算法则大多基于深度网络模型°,通过堆叠多层的卷积和非线性运算来学习视觉特征表达。然而,由于缺乏必要的引导,采用这些方法学习得到的模型存在训练和预测不稳定的情况,例如,古德菲勒(Goodfellow)等研究者发现,通过加入非常小的噪声,可以使得原本能够预测得非常精确的网络预测出错。
视觉概念存在很强的关联关系,这些关联关系可以引导网络找到更具判别性的特征,增强特征的表达能力和鲁棒性,从而解决上述问题。目前研究者们主要考虑以下几个方面的信息。(1)类别-类别关联:不同物体类别之间的关联信息;(2)类别-属性关联:类别和可能的属性之间的关联信息;(3)类别-属性混合关联:综合考虑类别-类别和类别-属性关联信息。现有研究者利用这些先验信息,引导深度特征表达学习,并应用于多标签物体分类、精细化物体识别以及大规模物体检测任务等经典视觉理解任务中。
多标签物体分类:
单标签图像分类方法假设图像中只包含同一个类别的物体,然而,现实世界中的图像往往包含属于多个不同类别的物体,因此,如何能同时识别图像上多个类别的标签,是一个更具现实意义的任务。因为一张图像中涵盖着属于多个类别的物体,所以挖掘不同类别的判别性区域以及捕获不同类别标签之间的关联关系,是解决多标签图像分类问题的核心难点。
为解决该问题,有学者提出了循环注意力框架。该框架利用一个空间变换器自适应地定位和挖掘具有判别性的语义区域,并引入长短时记忆网络捕获这些语义区域之间的关联信息。这个方法具有两个优势:(1)引入注意力机制取代之前基于物体候选框的方法,可以端到端优化以提升其性能;(2)长短时记忆网络可以隐式地捕获类别共存关联的信息,促进多标签图像识别。该方法虽然取得了比较好的效果,但也存在几点问题:(1)注意力机制缺乏必要的引导,无法精确地定位到语义物体区域;(2)简单地利用时序网络系列关联物体区域,无法对其两两之间的关联进行建模;(3)通过时序网络隐式捕获其关联信息,没有显式地嵌入类别关联先验信息。
特定语义的图表达学习框架一般包括两个主要模块。(1)语义解耦:引入类别语义信息引导网络注意到相应的区域,以学习语义关联的特征表达;(2)语义交互:基于类别共存信息构建类别关联的知识图谱,利用语义关联的特征表达初始化相应的语义节点,引人图传播模型传播节点信息,以探索不同语义特征的交互。利用这种机制,通过引入语义引导,可以更好地定位到相应的语义区域。另外,该方法通过显式地引入统计的类别共存信息,可以更好地利用类别关系信息促进多标签图像识别。目前,在最广泛用于评测多标签图像识别基准数据集Pascal VOC 2012的排行榜上,该方法名列第一。
精细化图像分类:
精细化图像分类是指对某一类别下不同的从属类别进行区分,例如,区分20种不同的鸟,辨别200类不同的狗,等等。该问题的难点在于,不同从属类别的物体具有相似的外观信息,而同一类别的物体因为其姿态、光照、背景等因素的差别,其外观差别却非常大。因此,对于给定的图像,为了精确地识别其类别,人往往会首先回忆其具备的部件级属性,再关注到相应的区域查看是否具有相应的属性,并最后做判断分析。
为了模拟人的这种判断方式,Chen等人提出了知识嵌入的表达学习框架,首次引入“类别-属性”关联的信息引导学习属性关联的特征,以辅助精细化图像分类。该框架首先基于统计的“类别-属性”关联的信息构建知识图谱,然后利用一个图网络在图上传播节点信息以学习其知识表达,最后设计一个门控网络把知识表达嵌入到图像特征学习过程中,引导学习属性关联的特征。通过知识的嵌入和引导,该框架不仅能够学习更具判别性的特征,以更好区分不同子类,而且可以隐式地推理具有判别性的属性,并将其与特征图相关联,学习到具有意义配置的特征图。然而,该方法必须对一部分图像标注其属性信息,这样造价昂贵的属性标注难以适用于具有大规模类别的场景;另一方面,很多物体类别也难以精确定义其有用的属性。为摆脱属性标注带来的额外代价和相关问题,最新的工作进一步对如何引入类别层次化引导和约束网络学习展开研究,以提升精细化图像识别的精确性。物体类别天生具备不同抽象程度的层次化结构,特别是精细化分类。以鸟纲为例,具有目、科、属、种4种不同粒度的类别。这种方法对不同层次类别之间的关联关系进行编码,可以有效地约束语义预测空间以降低判断的混淆性。为了能有效利用这种类别层次化的信息,Chen等人提出了利用层次化语义嵌入的方法引导学习精细化特征表达,以促进精细化物体分类,该框架从最高层到最底层顺序地预测了每一层的类别分布,在预测每一层时,作者引入上一层预测的类别分布引导学习更精细化的特征。在训练阶段,该框架则利用知识蒸馏的方法,把上层的类别分布作为软目标,约束该层的类别分布预测。相比于只对某一层类别的工作做预测,该框架引入了类别层次化,可以提升精细化识别的精度;另一方面,该框架可以同时预测多层的类别分布,提供更丰富的信息。
领取专属 10元无门槛券
私享最新 技术干货