首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

人工智能研究热点问题:计算机视觉和自然语言处理

在人工智能技术中,计算机视觉(computer vision)与自然语言处理(natural language processing)是两个非常重要,而且对于人们生活有着最直接影响的方向。计算机视觉专注于对于图像的理解与处理,而自然语言处理则广泛应用于各种与语音或文本有关的场景。在这当中,自然也存在两种技术应用场景的重叠区域,即需要同时对图像与文本进行综合地理解与处理。

视觉与自然语言的结合是当前学界的研究热点之一,该方向有四个子课题值得关注:视觉关系检测(visual relation detection)、场景图生成(scenography generation)、指示表达(referring expression)和指示关系(referring relationships)。

视觉关系检测任务是指在检测图片中的物体框和类别的同时,检测出图片存在的关系,并与检测框对应起来。视觉关系是对于图片信息的进一步理解,仅仅是检测框和物体类别信息,并不能非常充分地表达出一张图片所包含的信息。相似的检测框位置和相同的物体类别,其表示的视觉内容可能截然不同。为解决谓词检测问题,卢策吾(Cewu Lu)的工作利用两个物体联合框的特征进行谓词的分类,同时尝试引入语言上的先验以帮助谓词的判断。VTansE这项工作观察到了谓词所对应的视觉特征有很强的多样性,比如“carry”这个谓词在人拿书和货车运输物体这两个实例的视觉信息上具有非常大的差异。为更好地建模谓词特征,VTransE将物体和谓词的特征都映射到低维空间,谓词则被视为在映射空间中主语特征到宾语特征的偏移。DRNet的工作也同样发现了谓词视觉特征的多样性问题,所以提出使用主语和宾语框的掩膜作为相对空间关系特征,性能获得了很大的提高。

场景图生成任务与视觉关系检测任务基本相同,只是要求网络最终输出为以物体为节点物体间关系为边的场景图,其实质也是需要检测出图片中的物体位置、类别以及物体之间的关系。Danfei Xu等人先提出使用迭代式的信息传递方法来增强特征,在此前的工作中物体的分类和谓词的分类是互相独立的,而物体周围的上下文信息是能够帮助预测的,例如当知道图片中存在三元组“马在草地上”时,很有可能提高检测到人的可能性,也能增强预测“人骑马”这一关系的可能性。为此该工作设计了物体图和关系图之间的信息传递方式,以增强两种类型的特征交流。阿莱桑德罗·纽厄尔(Alejandro Newell)等人针对这一任务另辟蹊径,使用关联嵌入(Associate Embedding)的方法以端到端的方式从图片得到场景图。物体的映射特征来自候选框的中心对应的视觉特征,关系的映射特征则是两个候选框中心的重点,最终在关联损失函数的监督下实现三者的配对。Neural Motifs工作重点关注了Visual Genome这一数据库关系的特点,它发现:(1)物体标签对关系标签有很强的预见性,但是反过来这一特点不存在;(2)数据库中超过90%的关系是非语义性的;(3)数据库中存在很多规律的样板。基于以上的发现,Neural motifs将数据库的统计特性融入到网络预测中,同时使用物体之间的上下文信息来帮助检测。Graph R-CNN将图卷积引入到该领域中,它认为我们所关注的场景图是稀疏的只有少数的物件间拥有我们所定义的关系。物体间关系的存在高度依赖于物体的类别,物体的上下文信息对关系的分类也有很大帮助。基于上述动机,Graph R-CNN设计了如下的生成流程:利用物体检测器从图片中提取区域特征;将所有的物体连接成个全连接的图;将密集连接的图剪枝为更稀疏的图;利用图卷积网络传播信息来帮助推断物体和关系的类别。

指示表达任务是指给定一句话和一张图片作为输入,要求找出这句话在图中所指示物体的候选框。ReferItGame是最早提出该任务的工作,它主要介绍了一种交互式的数据采集方式:用户1看到的是一张图片和图片中圈出的物体,需要提供一句话来指明该物体;用户2看到的则是相同的图片和用户1提供的一句话表达,需要找出这句话所指带的物体。虞立成(Licheng Yu)在ECCV 2016上发布了基于MS COCO数据集格式的三个数据库:RefCOCO, RefCOCO+和 RefCOCOg。在该工作中,他还提出了利用某个候选框区域的视觉特征和语言特征与其他所有候选框的差值作为匹配特征。发表在CVPR 2018上的MattNet发现大部分的语言表达由三部分组成:主语物体、位置信息和关系,所以设计了三个特定的模块来判断特定候选物体在三个方面与自然语言表达的匹配程度。在主语物体模块使用的是检测特征以及视觉属性预测的特征,在位置信息模块主要是使用物体自身的位置信息和同类物体间的相对位置信息,而在关系模块则使用了语言特征与区域视觉特征的相似度。三种类型的匹配得分比此前的方法更加充分地利用了各种维度的特征,获得了更好的性能。王鹏(Peng Wang)等人在CⅤPR 2019上的工作则强调了物体与周围物件之间的关系,为了更好地对物体间的关系进行建模,它也使用了图的结构来进行信息的传播。在该工作中,将关系分为物体的类内关系和类间关系,并且利用语言信息得到注意力权重来引导图中的信息传递,最后最符合语言表述的物体将获得最全面的信息,因而能够在匹配过程中获得最高的匹配得分。

与指示表达任务不同,指示关系任务使用的三元组作为输入而不是自然语言表达,要求网络输出。该任务的核心是利用视觉关系来区分图片内的不同实体,相较于指示表达任务,它排除了自然语言的干扰,更易于发现模型错误预测的原因。在指代关系(Referring Relationships)的论文中设计了基于注意力转移的迭代模型。受到心理学里关注点移动理论的启发,该工作为每个谓词设置了卷积核来分别学习主语物体到宾语物体以及宾语物体到主语物体的注意力转移,这样在得到主语和宾语物体的初始注意力后,则可利用主语物体对应的注意力图加上谓词所对应的注意力转移,得到宾语物体的注意力图,对宾语而言同样也可得到主语的注意力图。经过几次迭代更新,最终得到了主语和宾语的输出。

作为深度学习领域的两个重要分支——计算机视觉以及自然语言处理,二者的紧密结合可以获取更深层的信息理解与认知,也更符合人类大脑对于信息的处理方式。目前,视觉结合自然语言已经在图片问答、看图说话、关系预测等传统任务上取得了不错的成果。随着计算机视觉和自然语言处理的各自领域内的发展,二者也将展现出全方位、深层次的交流与互动,逐步发展成为新的研究方向。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20200526A0QH6300?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券