解读 | 2019年10篇计算机视觉精选论文（中）

AI科技大本营

发布于 2019-12-26 16:11:06

7980

导读：2019 年转眼已经接近尾声，我们看到，这一年计算机视觉（CV）领域又诞生了大量出色的论文，提出了许多新颖的架构和方法，进一步提高了视觉系统的感知和生成能力。因此，我们精选了 2019 年十大 CV 研究论文，帮你了解该领域的最新趋势。

我们看到，近年来，计算机视觉（CV）系统已经逐渐成功地应用在医疗保健，安防、运输、零售、银行、农业等领域，也正在逐渐改变整个行业的面貌。

今年，CV 领域依然硕果累累，在各个顶尖会议中诞生了多篇优秀论文。我们从中精选了 10 篇论文以供大家参考、学习。限于篇幅，我们将解读分为了上、中、下三个篇章分期进行推送。

以下是这 10 篇论文的目录：

1.EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks

EfficientNet：卷积神经网络模型缩放的反思

2.Learning the Depths of Moving People by Watching Frozen People

通过观看静止的人来学习移动的人的深度

3.Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation

增强的跨模态匹配和自我监督的模仿学习，用于视觉语言导航

4.A Theory of Fermat Paths for Non-Line-of-Sight Shape Reconstruction

非视线形状重构的费马路径理论

5.Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Object Detection

Reasoning-RCNN：将自适应全局推理统一到大规模目标检测中

6.Fixing the Train-Test Resolution Discrepancy

修复训练测试分辨率差异

7.SinGAN: Learning a Generative Model from a Single Natural Image

SinGAN：从单个自然图像中学习生成模型

8.Local Aggregation for Unsupervised Learning of Visual Embeddings

视觉聚合的无监督学习的局部聚合

9.Robust Change Captioning

强大的更改字幕

10.HYPE: A Benchmark for Human eYe Perceptual Evaluation of Generative Models

HYPE：人类对生成模型的 eYe 感知评估的基准

前三篇论文的详细解读在此，大家可点击图片或下方文字进行阅读：

解读 | 2019 年 10 篇计算机视觉精选论文（上）

接下来，我们将从核心思想、关键成就、未来技术应用等方面，详细介绍第 4-7 篇论文，同时欢迎大家继续关注后续的内容推送。

非视线形状重构的费马路径理论

论文地址：http://1t.click/b49X

摘要

我们提出了一个新的理论，即在一个已知的可见场景和一个不在瞬态相机视线范围内的未知物体之间的 Fermat path。这些光路要么遵守镜面反射，要么被物体的边界反射，从而编码隐藏物体的形状。

我们证明费马路径对应于瞬态测量中的不连续性。然后，我们推导出一种新的约束，它将这些不连续处的路径长度的空间导数与表面法线相关联。

基于这一理论，我们提出了一种名为 Fermat Flow 的算法，来估计非视距物体的形状。我们的方法首次允许复杂对象的精确形状恢复，范围从隐藏在拐角处以及隐藏在漫射器后面的漫反射到镜面反射。

最后，我们的方法与用于瞬态成像的特定技术无关。因此，我们展示了使用 SPAD 和超快激光从皮秒级瞬态恢复的毫米级形状，以及使用干涉测量法从飞秒级瞬态微米级重建。我们相信我们的工作是非视距成像技术的重大进步。

本文的核心思想

•现有的对隐藏物体进行轮廓分析的方法，取决于测量反射光子的强度，这需要假设朗伯反射和可靠的光电探测器。

•研究小组建议通过依靠费马原理施加的几何约束，来重构非视线形状：

费马路径对应于瞬态测量中的不连续性。
具体而言，可以将瞬态测量中的不连续性识别为有助于瞬态的费马路径的长度。
给定费马路径长度的集合，该过程将为 NLOS 表面生成一个定向的点云。

关键成就

•从引入的理论推导出的费马流动算法，可以成功地重构出不依赖于特定瞬态成像技术的隐藏物体表面。

•费马路径理论适用于以下情形:

反射式 NLOS(环角);
透射式 NLOS(透过扩散器)。

本文在人工智能界的荣誉

该论文在计算机视觉和模式识别的顶尖会议 CVPR 2019 上获得了最佳论文奖。

未来的研究领域是什么？

•探索此处描述的几何方法与新介绍的用于对隐藏对象进行概要分析的反投影方法之间的联系。

•将几何和反投影方法结合起来用于其他相关应用，包括声学和超声成像，无透镜成像和地震成像。

有哪些可能的业务应用程序？

•摄像机或传感器可以「看到」超出其视野的增强的安全性。

•自动驾驶汽车可能会「看见」拐角处。

Reasoning-RCNN：将自适应全局推理统一到大规模目标检测中

论文地址：http://1t.click/b46x

摘要

在本文中，我们解决了具有数千个类别的大规模对象检测问题，由于长尾数据分布，严重的遮挡和类别模糊性，这带来了严峻的挑战。然而，主要对象检测范式是通过在不考虑对象之间关键的语义依赖性的情况下，分别处理每个对象区域而受到限制的。

在这项工作中，我们引入了一种新颖的 Reasoning-RCNN，通过利用各种人类常识知识，赋予所有检测网络在所有对象区域上自适应全局推理的能力。我们不只是直接在图像上传播视觉特征，而是在全球范围内发展所有类别的高级语义表示，以避免图像中分散注意力或不良的视觉特征。具体来说，基于基本检测网络的特征表示，提出的网络首先通过收集每个类别的先前分类层的权重，来生成全局语义池，然后通过参加全局语义池中的不同语义上下文，来自适应地增强每个对象的特征。

我们的自适应全局推理不是从嘈杂的所有可能的语义信息中传播信息，而是自动发现特征演变的大多数相对类别。我们的 Reasoning-RCNN 轻巧灵活，足以增强任何检测主干网络，并且可扩展以集成任何知识资源。在对象检测基准上进行的可靠实验显示了我们的 Reasoning-RCNN 的优势，例如，在 VisualGenome 上实现了约 16％的改进，在 mAP 方面实现了 ADE 的 37％的改进，在 COCO 方面实现了 15％的改进。

本文的核心思想

•大规模物体检测面临许多重大挑战，包括高度不平衡的物体类别，严重遮挡，类歧义，小尺寸物体等。

•为了克服这些挑战，研究人员引入了一种新颖的 Reasoning-RCNN 网络，该网络可以对具有某些关系或相似属性的类别进行自适应全局推理：

首先，该模型通过收集先前分类层的权重，在大规模图像中的所有类别上生成全局语义池。
其次，按类别划分的知识图被设计为对语言知识（例如属性，共现，关系）进行编码。
第三，通过关注机制对当前图像进行编码，以自动发现每个对象最相关的类别。
第四，增强的类别通过软映射机制映射回区域，从而可以细化前一阶段不准确的分类结果。
第五，将每个区域的新增强功能与原始功能连接在一起，以端到端的方式增强分类和定位的性能。

关键成就

•Reasoning-RCNN 优于当前的最新对象检测方法，包括 Faster R-CNN，RetinaNet，RelationNet 和 DetNet。

•特别是，该模型在平均平均精度（mAP）方面实现了以下改进：

1000 个类别的 VisualGenome 占 15％；
3000 个类别的 VisualGenome 占16％；
ADE 占 37％；
MS-COCO 的 15％；
Pascal VOC 的 2％。

本文在人工智能界的荣誉

该论文在计算机视觉的顶尖会议 CVPR 2019 上被重点进行介绍。

未来的研究领域是什么？

•将 Reasoning-RCNN 中使用的推理框架嵌入到其他任务中，包括实例级细分。

有哪些可能的业务应用程序？

•所提出的方法可以显着提高依赖于大规模对象检测（例如，城市街道上的威胁检测）的系统的性能。

在哪里可以获得实现代码？

•GitHub 上提供了 Reasoning-RCNN 的实现代码：

https://github.com/chanyn/Reasoning-RCNN。

修复训练测试分辨率差异

论文地址：https://arxiv.org/pdf/1906.06423.pdf

摘要

数据扩充是训练神经网络进行图像分类的关键。本文首先显示，现有的增强会导致分类器在训练和测试时，看到的典型对象大小之间出现显著差异。我们通过实验验证，对于目标测试分辨率，使用较低的训练分辨率，可以在测试时提供更好的分类。

然后，我们提出了一种简单而有效的策略，以在训练分辨率和测试分辨率不同时优化分类器性能。它仅涉及在测试分辨率下计算机上廉价的网络微调。这样可以使用小型训练图像来训练强大的分类器。

例如，通过在 128×128 图像上训练的 ResNet-50，在 ImageNet 上获得 77.1％的 top-1 精度，在 224×224 图像上训练出的 ResNet-50 达到 79.8％。另外，如果我们使用额外的训练数据，则使用具有 224×224 图像的 ResNet-50 train 可获得 82.5％的效果。

相反，以 224×224 的分辨率对 9.4 亿张公共图像进行弱监督预训练的 ResNeXt-101 32×48d 并进一步优化测试分辨率 320×320 时，我们获得的测试 top-1 准确性为 86.4％（前 5 名：98.0％）（单作）。据我们所知，这是迄今为止 ImageNet 最高的单幅 top-1 和 top-5 精度。

本文的核心思想

•图像预处理程序在训练和测试时的差异会对图像分类器的性能产生不利影响：

为了增加训练数据，通常的做法是从图像（即分类区域或 RoC）中提取具有随机坐标的矩形。
在测试时，从图像的中央部分提取 RoC 。
这导致分类器在训练和测试时看到的对象大小之间存在显着差异。

•为了解决这个问题，研究人员建议在训练和测试时共同优化图像的分辨率和比例，分析表明：

在测试时增加图像作物的大小，可以补偿训练时随机选择 RoC；
在训练中使用比测试时使用更低分辨率的农作物可以改善模型的性能。

•因此，Facebook AI 团队建议保持相同的 RoC 采样，并且仅微调网络的两个层以补偿作物大小的变化。

关键成就

•通过获取以下内容来提高 ResNet-50 模型在 ImageNet 上进行图像分类的性能：

在 128×128 图像上训练时，top-1 精度为 77.1％;
在 224×224 图像上训练时，top-1 精度为 79.8％;
在带有额外训练数据的 224×224 图像上进行训练时，top-1 精度为 82.5％。

•使 ResNeXt-101 32×48d 在 9.4 亿张公共图像上以 224×224 图像的分辨率进行预训练，从而在 ImageNet 上进行图像分类的新技术：

top-1 准确性为 86.4％；
top-5 准确性为 98.0％。

有哪些可能的业务应用程序？

•建议的方法可以提高用于大型数据库中自动图像组织，股票网站上的图像分类，可视产品搜索等的 AI 系统的性能。

在哪里可以获得实现代码？

•作者提供了引入的方法的官方 PyTorch 实现，以解决训练测试分辨率的差异。

GitHub 地址：

https://github.com/facebookresearch/FixRes

SinGAN：从单个自然图像中学习生成模型

论文地址：https://arxiv.org/pdf/1905.01164.pdf

摘要

我们介绍了 SinGAN，一个可以从单个自然图像中学习的无条件生成模型。我们的模型经过训练，可以捕获图像内斑块的内部分布，然后能够生成高质量，多样的样本，并承载与图像相同的视觉内容。SinGAN 包含一个完全卷积的 GAN 金字塔，每个 GAN 负责学习图像不同比例的 patch 分布。这样就可以生成具有任意大小和纵横比的新样本，这些样本具有明显的可变性，同时又可以保持训练图像的整体结构和精细纹理。

与以前的单图像 GAN 方案相比，我们的方法不仅限于纹理图像，而且不是有条件的（即从噪声中生成样本）。通过用户的研究证实了，生成的样本通常被混淆为真实图像。我们将说明 SinGAN 在各种图像处理任务中的实用性。

本文的核心思想

•为了从单个图像中学习无条件生成模型，研究人员建议使用单个图像的补丁作为训练样本，而不是像常规 GAN 设置中的整个图像样本。

•该 SinGAN 生成框架：

由补丁 GAN 的层次结构组成，每个 GAN 负责捕获补丁在不同规模上的分布（例如，某些 GAN 了解全局属性和大对象的形状，例如「顶部的天空」和「底部的地面」，以及其他 GAN 可以学习精细的细节和纹理信息）；
不仅可以生成纹理，还可以处理一般的自然图像；
允许生成任意大小和纵横比的图像；
通过选择在测试时间开始生成的标度，可以控制生成的样本的可变性。

关键成就

•实验证明 SinGAN：