2018年6月11日,京东AI研究院计算机视觉与多媒体实验室荣获计算机视觉领域顶级会议CVPR 2018 “Look Into Person” 国际竞赛(以下简称LIP)单人和多人人体姿态估计两个竞赛单元的冠军,以及单人人体姿态解析竞赛单元的亚军。
LIP今年是第二届举行,拥有大规模的人体姿态图像数据库、公平严格的评审标准以及国际性的竞赛影响力。比赛评审专家来自卡内基梅隆大学、加州大学洛杉矶分校、加州大学伯克利分校、约翰霍普金斯大学、新加坡国立大学等著名大学与科研机构。此次比赛吸引了包括美国伊利诺伊大学、俄亥俄州立大学、清华大学、京东AI研究院、今日头条人工智能实验室、中科院、南京大学、东南大学、北京交通大学、北京邮电大学等在内的全球众多高校及科研院所的优秀队伍参赛。除获相应的荣誉奖励外,获得冠军的队伍还将受邀前往在美国盐湖城召开的IEEE CVPR 2018会议现场展示竞赛技术、分享参赛经验。
本次比赛中,单人人体姿态估计竞赛单元的任务是输出单人人体上指定的16个关键点(例如头部、上肢和下肢等)的位置坐标和置信度。针对人体关键点的目标区域较小、难以检测的问题,JD AI 计算机视觉与多媒体实验室的JDAI-Human团队对以往基于多尺度全卷积神经网络的模型(例如Cascading Pyramid Network、Stacked Hourglass、RMPE等)进行改进,使每个卷积核能对图片的细节进行感知,同时输出精度更高的feature map。除此之外,还进行了图片增强、数据扩张,并在后期训练中调整用于hard example mining的关键点类数,使用focal loss损失函数等,使得模型能够更精确地捕捉肢体的细节、以及被遮盖的部分。最终根据各个不同模型的效果进行融合,取得了90.9%的准确度,获得了单人人体姿态估计的冠军,并刷新了该项挑战赛2017年的记录。
图1 JDAI-Human团队在单人人体姿态估计任务中的部分结果展示
多人人体姿态估计竞赛单元是今年刚加入的比赛任务,解决的是对图片中多人的人体关键点位置和置信度的估计问题。该竞赛数据集与流行的COCO人体关键点检测数据集以及MPII数据集相比,更关注多人遮挡等难样例,这也增加了比赛的难度。在本次比赛中,JD AI 计算机视觉与多媒体实验室的JDAI-Human团队针对多人遮挡严重、姿态和视角多样性等特点,优化改进了结合多人检测和单人关键点估计的"top-down"框架,包括:
1)改进了加入金字塔残差模块的stacked hourglass关键点检测模型,使得模型可以更精确地获得人体关键点的局部和全局信息;
2)针对多人遮挡中人体检测框的冗余和不准确,改进了参数化的姿态非极大值抑制器(Parametric Pose NMS);
3)对于难检测和遮挡严重的关键点,采用了优化选择hard keypoints类数和loss权重的策略。
最终改进的模型在多人人体姿态估计竞赛单元中取得了72.2%的准确度,领先第二名2.3%。
图2 JDAI-Human团队在多人人体姿态估计任务中的部分结果展示
京东AI研究院计算机视觉与多媒体实验室在人体行为分析、人脸识别、行人重识别等方面有着深厚的积累。此次参加竞赛的相关技术,将会很快上线到京东AI开发平台NeuHub (http://neuhub.jd.com/)供用户公开调用,并将应用在京东无界零售、无人超市、无人仓库、AR/VR互动营销等多个业务场景中。此外,京东AI平台与研究部正在与合作伙伴在线下门店技术方面进行紧密合作,相信这些顶尖的技术会给门店客户带来更大的商业价值和更好的用户体验。
附录:
Single-Person Human Pose Estimation Track
Multi-Human Pose Estimation Track
Single-Person Human Parsing Track
---------------------END---------------------
下面的内容同样精彩
点击图片即可阅读
京东技术 ∣关注技术的公众号