随着人脸数据集规模的逐渐扩大,研究者们设计出了各种更快更强的人脸识别网络。但是对于现有人脸数据集中的标签噪声问题,学界的理解依然有限。而现有人脸数据集中的标签噪声问题进行了深入研究,对MegaFace和MS-Celeb-1M数据集中的噪声特性和来源做了全面的分析,发现干净子集对于提高人脸识别精度效果显著。
本文对于人脸识别领域作出以下贡献:
清理出了现有大规模人脸数据集(包括 MegaFace 和 MS-Celeb-1M)的干净子集,并提出了一个新的无噪声人脸数据集 IMDb_Face;
利用原始数据集以及清理后的干净子集,对 MegaFace 和 MS-Celeb-1M 数据集中的噪声特性和来源做了全面的分析,发现干净子集对于提高人脸识别精度效果显著;
本文提出了一种用于数据清理的标注流程,大量的用户调研显示该流程是高效且可控的。
IMDb-Face 数据集开源地址:https://github.com/fwang91/IMDb-Face
《The Devil of Face Recognition is in the Noise》论文下载地址:http://cn.arxiv.org/abs/1807.11649
【今日机器学习概念】
Have a Great Definition
-THE END-
领取专属 10元无门槛券
私享最新 技术干货