看,李焕英这亲切的笑容、明亮的眼眸,是否与银幕上那个她一样有感染力?
你的长辈年轻时,又是否像这张老照片里的人一样,剑眉星目,神采飞扬:
要说最近最火的AI玩法,那真是非腾讯微视“会动的老照片”这类特效莫属。
表情迁移技术与基于GAN的老照片修复技术强强联合,给人一种打开了时光机的感觉,仿佛真的能与老照片里的人隔空对话,追忆往昔。
并且用户无需任何加工,只需在微视APP里上传一张照片,不到一分钟,都能亲自开启这样的“时间魔法”。
这不,一经上线,就吸引了15万用户体验,视频播放量高达5800万。
更有不少网友在看到这样特效后直接泪目:
说起来,让照片动起来的“魔法”,在2019年就曾带起一波时尚风潮,令网友直呼“哈利波特”。
比如,来自意大利特伦托大学的一篇NeurIPS 2019论文,就介绍了一种名为一阶运动模型(First Order Motion Model)的方法。
通过运动估计模块和图像生成模块,这个AI能让川建国和《冰与火之歌》里的史塔克们实现眨眼、摇头神同步。
除了“会动的老照片”,基于这类技术,腾讯微视上还能这样玩:
一键让清朝皇帝们齐唱画画的baby。
而围绕图像生成,AI这种麻瓜的魔法能实现的效果,当然还不止如此。
正如前文所提到的,要实现“会动的老照片”这一特效,除了动态的部分,在提升清晰度方面,也少不了GAN的功劳——这也是近年来人脸特效方面最热的课题之一。
单单基于GAN,腾讯微视上就还有这样的玩法:
做人嘛,最重要就是开心。对着镜头笑不出来?AI分分钟帮你打造完美笑容。
减龄10岁,也不在话下。
还能秒变欧美脸。
不过,虽然以上方法相关的开源代码不少,但想把它集成到一个手机App里,仍然需要在算法优化和工程实践上下功夫打磨。
具体腾讯微视是如何实现的呢?
首先,在生成模型方面,技术团队针对不同场景,先后研发迭代了三种大模型:
在非成对数据比较丰富的场景下,基于CycleGAN思想,打造能够实现有条件生成的Cycle-StyleGAN模型。
在只有少量非成对数据的真实人脸生成场景中,采用基于隐向量的属性编辑思想,利用如StyleGAN这样的预训练生成模型,在隐向量空间中找出代表目标属性的方向向量,以实现对眉毛、眼睛这样的面部属性的控制。
而在只有少量非成对数据的风格化场景中,技术团队提出了基于小样本的模型融合方法。主要思想是,在收集的少量数据上对预训练模型进行微调,然后,将微调后的模型与原始模型融合得到一个混合模型,这样,该模型既能生成目标风格的图片,又兼具原始预训练模型强大多样的生成能力。
而在动作迁移方面,技术团队实现了实时的轻量化人脸动作迁移。
具体而言,在大模型层面,技术人员借鉴Monkey-Net和一阶运动模型等所采用的基于关键点轨迹的反向光流预测方法,先以无监督形式估计每一对关键点的位置,得到稀疏动作光流,再预测加权掩膜得到稠密动作光流。
而为了实现更强的变形能力和动作建模能力,技术人员还引入了透视变换项,使得稀疏动作光流可以学习到更加复杂的变换类型。
而为了实现手机端的实时推断,技术团队还进行了小模型层面的优化:
相关技术人员还透露,针对不同配置的手机,他们进行了有针对性的分档优化。从效果上来看,即使是配置较低的千元机,也能以15FPS以上的帧率流畅运行老照片修复这样的特效。
以上算法实现,均来自腾讯微视拍摄算法团队和腾讯平台与内容事业群(PCG)应用研究中心共同研发。
腾讯微视拍摄算法团队致力于图像/视频方向的技术探索,并依托丰富的业务场景,一直在探索前沿AI和CV算法在内容生产和消费领域的应用和落地。应用研究中心则被称作腾讯PCG的“侦察兵”、“特种兵”,站在腾讯探索、挑战智能媒体相关前沿技术的第一线。
通常而言,特效算法的更新换代节奏很快,从研发到上线,周期大概在1到1个半月之间。团队成员也坦言:推动技术落地产出,让用户能够低成本、第一时间上手体验,是团队最看重的目标。
但这并不意味着快速迭代是这支技术团队唯一的节奏。
实际上,对前沿技术的主动出击、长期关注正是其技术底气的来源:
对于更加前沿、更有难度的算法,以及一些不常见的模型效果,我们会投入5-6个月甚至更长的时间去攻坚克难。 在这个过程中,团队会把从算法到工程的框架全部搭好。而这些积累,也就是后续项目能够快速上线的基石。
而多种多样新AI玩法的灵感,同样来源于这样对学术前沿、热点的持续关注。
同时,也离不开这样的初衷:
让最潮的AI玩法,以最低的门槛跟用户见面。
— 完 —
本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。
图书推荐
▊《深度学习500问:AI工程师面试宝典》
谈继勇 主编
(扫码了解本书详情)
▊《人脸识别原理与实战:以MATLAB为工具》
王文峰 等 著
(扫码了解本书详情)
▊《图像视频滤镜与人像美颜美妆算法详解》
胡耀武 等 著
(扫码了解本书详情)
如果喜欢本文欢迎 在看丨留言丨分享至朋友圈 三连
热文推荐
从产品经理到产品架构师
书单|互联网企业面试案头书之程序员技术篇
一文读懂火爆全网的「蚂蚁呀嘿」
Dubbo Spring Cloud :服务调用的新选择
本文分享自 博文视点Broadview 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!