论文一
论文标题:
LinkNet Relational Embedding for Scene Graph,场景图的LinkNet关系嵌入
论文摘要:
图像理解的重要内容是对象及其关系。场景图提供了一个结构化的描述,它捕捉图像的这些属性。然而,对物体之间的关系进行推理是非常具有挑战性的,最近只有少数研究试图解决从图像中生成场景图的问题。本文提出了一种通过对全部对象实例之间的相互依赖关系进行清晰地建模来改进场景图生成的方法。
我们设计了一个简单有效的关系嵌入模块,使我们的模型能够联合表示所有相关对象之间的连接,而不是孤立地关注一个对象。我们的方法显著地改善了场景图生成任务的主要部分:关系分类。在一个基本的faster r-cnn之上使用它,我们的模型在数据集Visual Genome基准上取得了最先进的结果。通过引入 全局上下文编码模块( global context encoding module )和几何布局编码模块( geometrical layout encoding module),进一步提高了性能。我们通过广泛的消融研究验证了我们最终的模型LinkNet,证明了它在场景图生成中的有效性。
论文二:
论文标题:
Bilinear Attention Networks,双线性注意力网络
论文摘要:
多模态学习中的注意力网络提供了一种有效的方法来选择性地利用给定的视觉信息。然而,对于学习每一对多模态输入渠道的注意力分布来说,计算成本非常昂贵。
在本文中,我们提出了双线性注意力网络(BAN),它能够发现双线性注意力分布,从而无缝地利用给定的视觉语言信息。双线性注意力网络(BAN)考虑两组输入通道之间的双线性交互,而低秩分解(low-rank)双线性池化提取每对通道的联合表示。此外,我们还提出了一种多模态残差网络的变量,以有效地利用8个通道的注意力地图。我们对可视化问答(VQA 2.0)和Flickr30k实体数据集的模型进行了定量和定性评价,结果表明双线性注意力网络(BAN)在这两个数据集上的性能显著优于以前的方法,并达到了新的技术水平。(完)
亲爱的数据
出品:谭婧
美编:陈泓宇
领取专属 10元无门槛券
私享最新 技术干货