机器之心专栏
作者:美图影像研究院
美图影像研究院(MT Lab)正式推出美图画质修复算法 V2(升级版),全新迭代版本取得重大技术突破,目前已在美图秀秀证件照、工具箱及视频剪辑(照片)中上线该算法。
摄影技术的广泛普及与飞速发展深刻地改变了大众的生活,不知不觉中人们已对随时随地拿出手机拍摄记录习以为常。但对很多人而言,老照片却承载着心中绵长的岁月和难忘的回忆,凝滞着时光与那些不经意间被遗忘的美好瞬间,翻阅老照片就像是在与遥远过去进行的一场隔空对话。昔日旧照的分享也频登热门话题榜,带人们坐上时光穿梭机,掀起一场又一场的「复古风潮」。但由于年限久远,早期摄影设备的技术有限,手机搭载的摄像头像素较低,老照片的清晰度往往不高,许多照片还因经过数次转载与压缩导致画质受损严重。
2019 年,美图影像研究院(MT Lab)正式推出人像画质修复技术,通过便捷的一键操作就能实现老照片中低画质人像的高清还原。与此同时,还能修复模糊、失焦以及因压缩导致的画质受损等各类低清图像场景。此后,针对目前人像画质修复所面对的两个关键性挑战:一是如何更好地去除图像上导致画质受损的噪声、马赛克、模糊等影响因素;二是在人像画质修复过程中如何保留人脸身份信息(identity)并保持人脸不发生形变,MT Lab 持续迭代升级 AI 图像生成技术,基于深度学习方法自主与前沿技术,自主研发全新生成网络结构 MTIR-GAN,并在此基础上凭借美图数亿量级数据对模型进行训练学习,令 MTIR-GAN 具备优异的人像修复能力。
基于 MTIR-GAN 的美图画质修复算法 V2(升级版)最终实现了对睫毛、眉毛、发丝和肤质等脸部细节最大程度的还原修复,并保留人脸身份信息(identity),保持人脸不发生形变。同时有效解决了因图像多次压缩所导致的画质受损以及由于拍摄环境如夜拍、抓拍和拍摄过程抖动等造成的照片模糊、失焦、噪声、马赛克等画质修复方面的关键问题。不仅如此,美图画质修复算法 V2 还通过算法升级不断优化美图自研神经网络推理框架,有效提升修复效率,用户在 1.5 秒以内即可看到单人像修复后的惊艳效果,最大限度地节省了用户的等待时间。
图 1:美图画质修复算法 V2 效果(上为原图,下为效果图)
图 2:美图画质修复算法 V2 效果(上为原图,下为效果图)
美图画质修复算法 V2 图像修复全流程
美图画质修复算法 V2 采取三个步骤对待修复图像进行处理。首先,基于 MT Lab 的人脸技术对人脸点进行精准定位,针对人脸面部细节多,需要精细化处理的情况,单独对脸部画质进行修复与还原。与此同时,同步对全图进行去彩噪、去噪、去马赛克、去 jpeg 压缩、去模糊、去轻微抖动等画质修复操作,实现全图画质效果的增强,其中包括低分辨率修复和高分辨率增强。此外,针对分辨率较高的图像处理耗时较为严重的问题,美图画质修复算法 V2 采取先将待修复图缩小到一定尺度,再进行分块、去噪等画质修复操作,最后通过 guided-filter 网络结构的画质增强方案将其恢复为原始分辨率,从而高效提升计算效率,大幅压缩处理所需的等候时长。上述脸部修复工作和全图修复工作并行处理完成,修复后的脸部将被贴回图像中,合成完整的修复图。最后,利用超分网络对合成的完整修复图进行处理,实现图像整体画质的清晰度提升。美图画质修复算法 V2 完整流程如下图 3 所示:
图 3:美图画质修复 V2 全流程
图 4:修复效果对比
图 5:修复效果对比
人脸修复具体流程解析
人脸修复是本次美图画质修复算法升级的核心部分,人脸修复具体流程包括人脸裁框和脸部生成修复两个部分。
1、基于最小包围盒矩形框的人脸裁框
MT Lab 在人脸裁框上舍弃了以往单纯利用眼睛间距进行人脸裁切的方式,而采用最小包围盒矩形框对人脸进行裁切,以最大限度保证人脸的完整性,具体步骤为:
(a) 基于自研的人脸检测和人脸对齐技术实现对图像中人脸点集 FP 的高速读取,并计算其外接矩形,通过向外拓展得到人脸的裁切矩形。
(b) 基于人脸的裁切矩形获得人脸的旋转角度,并从原图中裁取摆正后的人脸图像 F。
2、基于 MTIR-GAN 网络设计的脸部生成修复
目前,StyleGAN2[2] 可以生成逼真且高清的人脸,但其生成的人脸是随机的,因而会导致人像身份信息发生改变,无法直接用于人像画质修复。对此,MT Lab 通过自研的 Encoder 网络提取待修复人像的结构信息和纹理,基于结构信息保持人像五官形状,防止发生形变。同时,纹理信息可以用来引导人像发丝、肤色、睫毛等细节生成,继而再输入 StyleGAN2 的生成网络,就能够获得修复完好且保留人脸身份信息(identity),保持人脸不发生形变的人像照片,实际上整个流程即通过替代 StyleGAN2 的 w+ 空间向量和输入其生成网络的常量实现。例如,输入一张大小为 1024x1024 待修复的人像图,经过 Encoder 网络的 8 次下采样,可以得到 4x4x32 的结构特征和 512 维度的纹理向量,再经过 StyleGAN2 的生成网络即可得到 1024x1024 的修复脸部图,具体网络结构如下图 6 所示:
图 6:MTIR-GAN 网络框架图
损失函数包括:L1 loss、Perceptual loss、Identity loss、Global D Loss、Facial D Loss。
通过修复后图像和 target 求得 L1 Loss,L1 Loss 可以使图像恢复得更加清晰。
Perceptual Loss 采用 vgg-19 网络进行计算,可以更好地恢复人像肤色、质感、细节等信息。
为更好地实现人像身份信息的保留,采用美图影像研究院(MT Lab) 自研的人脸识别算法对人像图进行特征提取求得 loss。
判别网络类型主要分为全局和局部,基于该分类可以确保修复后的人脸呈现更加真实的状态,局部五官信息则更加清晰并具有丰富细节。其中,全局网络采用类似 StyleGAN2 的合成方法;局部网络基于人脸点裁剪出眼睛、嘴巴、眉毛三个部位,然后统一 resize 到 256x256 尺度再输入判别网络求得 loss。
MT Lab 深耕 AI 领域,聚焦技术应用
目前,美图画质修复算法 V2 已于美图秀秀上线,满足用户对照片修复的多元需求,在实现对人像五官、发丝、眉毛、睫毛等人脸细节的进一步优化修复,提升皮肤真实、细腻质感的同时,也解决了在夜间拍摄、昏暗环境、拍摄抖动、抓拍等不同场景下对画质清晰度提升的关键需求。
MT Lab 在自研人像画质修复算法上实现了优化升级与不断突破,作为美图公司的顶级研发团队,在人脸技术、美颜技术、美妆技术、人体技术、图像分割、图像生成等多个技术领域处于世界先进水平,以核心技术创新推动美图公司的业务发展,并通过美图 AI 开放平台(ai.meitu.com)与行业共享 AI 领域最前沿的专业算法服务与解决方案。未来,MT Lab 也将继续深耕 AI 领域,积极推动前沿技术研究和应用落地。
过去30年,微软研究院一直通过跨学科、跨机构、跨地域的科学研究,为微软、为社会畅想和实现技术远景,致力于培育一个有韧性、可持续且健康的全球社会,并确保技术值得信赖,可以让每一个人受益。
为了进一步探索科学与技术发展的未来,由微软全球八大研究院携手倾力打造的首届微软研究峰会 Microsoft Research Summit 2021将于10月19日至21日线上举办。
来自世界各地的300余位顶尖科学家和技术领导者将带来共150场分享,包括微软公司董事长兼首席执行官 Satya Nadella,首席技术官 Kevin Scott,微软全球资深副总裁、微软研究院负责人 Peter Lee……内容围绕“科学、赋能、可持续发展、医疗健康、信任”五大主题展开,话题涵盖人工智能的行业应用、机器学习、可持续发展、隐私与安全、健康和生命科学等等。
欢迎大家扫描二维码或点击阅读原文注册 Microsoft Research Summit 2021,共享这场全球学术盛宴!
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com