新智元专栏
作者:DeepInsight 洞见实验室
【新智元导读】在知名的人脸识别评测 LFW 中,很多团队都取得了接近乃至超过 99.80% 的成绩。但是在大规模人脸识别中,挑战依然存在。例如MegaFace百万人脸识别挑战,即便在 LFW 上表现良好的模型也常常只能达到 60% 多的精度。DeepInsight 洞见实验室团队刷新了这一挑战的记录,将 MegaFace 的精度提升到 98%,超过俄罗斯 Vocord 公司保持的 91% 的纪录。
人脸识别被很多人认为是个成熟领域的问题,在知名的人脸识别评测 LFW 中,很多团队都取得了接近乃至超过 99.80% 的成绩,这在 2017 年人脸识别诸多报道中都可以看到,由于 LFW 评测中存在个别错误数据的缘故,这个成绩意味着接近满分。
尽管 LFW 是一个 1 比 1 比对任务,这仍然说明了在较小规模数据集上的人脸识别问题基本已经得到解决。然而在大规模人脸识别中,挑战依然存在。例如 MegaFace 百万人脸识别挑战,这是个 1 比 N 比对测试,即便在 LFW 上表现良好的模型也常常只能达到 60% 多的精度。2018 年 2 月,我们通过系列努力,将 MegaFace 的精度提升到了 98%,超过俄罗斯 Vocord 公司保持的 91% 的纪录,让这一大规模人脸识别具备了一个更加良好的 baseline。我们同时公布了代码[0],数据,以及相应论文[1],希望能推动人工智能从业人员进一步来解决更大规模的人脸识别挑战。
在文章中,我们[1]提出了一种具有更好几何解释性的 loss function,用来同时最小化类内距离和最大化类间距离。我们也探讨了在人脸识别领域影响最大的几个方面,并且在多个公开评测集上获得了最优的性能。文中提到的所有代码实现、训练集以及结果都可以直接从 github 上[0]下载和复现。
网络结构
首先,我们尝试在人脸识别的任务上找到一个优秀的网络结构。
3.1 网络输入设定
在我们所有的实验当中,都根据人脸的 5 个关键点进行对齐,并且切割设置大小到 112x112。因为这个图片大小是 ImageNet 输入的 1/4,我们考虑取消常见网络结构起始的降分辨率操作,即替换(conv77-stride22)为(conv33-stride11)。我们这个输入放大版的网络结构标记为 L。
3.2 网络输出设定
此处输出指代特征向量这一层。我们实验了多种从最后一个卷积层之后如何连接到特征向量的方法,发现了最优的结构代号 E,即 (Convolution -
领取专属 10元无门槛券
私享最新 技术干货