Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >火爆的老照片动起来、唱歌,微视把AI视频特效打包「一键」实现了

火爆的老照片动起来、唱歌,微视把AI视频特效打包「一键」实现了

作者头像
机器之心
发布于 2021-03-15 06:48:14
发布于 2021-03-15 06:48:14
1.7K0
举报
文章被收录于专栏:机器之心机器之心

机器之心原创

作者:张倩

从论文到手机,这个团队正在「一键实现」越来越多的好玩特效。

这几年,AI 模型在特效方向的技能似乎已被拉满。因此,我们在有生之年见到了会说话的蒙娜丽莎cos 油画的周杰伦以及可以让人一秒变秃的「东升发型生成器」。但是,这些技术似乎在使用层面都不太「接地气」,很少有人将其做成「一键生成」类应用放到手机上,实时类应用就更少了。

到了 2021 年,这种局面正在发生变化。

在一款短视频应用上,我们惊喜地看到,最近火遍全网的「深度怀旧」、「照片唱歌」都已经可以一键生成了:

这些特效都来自腾讯微视,用户只需要下载微视 APP,上传一张照片就可以得到想要的特效效果。其中,「会动的老照片」可以完成老照片上色、超分辨率、让照片中的人物动起来等效果;而「让照片唱首歌」可以让任意照片中的人演唱一首曲目,还搭配丰富的面部表情。

不过,这还只是微视实现的众多特效之一,还有更多特效可以在微视 APP 实时体验,如变明星、变欧美、变娃娃等。

此外,你还可以通过手机实时控制生成图像的面部动作,实现人脸动作迁移:

这些实时特效就像一面又一面的「魔镜」,可以实现各种奇妙的人脸魔法特效。而且玩法非常简单,只需要在 APP 中找到相应模板,然后打开摄像头拍摄即可。

也许有人会问:论文都出来那么久了,怎么现在才在手机上看到这些效果?这就不得不提把 AI 模型从论文搬上手机的那些难处了。

把特效搬上手机难在哪儿?

我们知道,近年来兴起的很多 AI 特效都是基于 GAN(生成对抗网络)的,上文中的大部分特效也不例外。但是,传统的 GAN 往往存在以下问题:

1. 需要大量的训练数据。数据对 AI 模型的重要性不言而喻,但对于一些基于 GAN 的人脸特效来说,模型不光需要数据,还需要大量的成对数据,这给数据采集工作带来了新的挑战。比如,在变换人种的特效中,我们不可能同时拥有一个人作为不同人种的图片。

2. 可控性差。我们在应用 GAN 生成人脸的时候可能会希望单独调整某个属性,其他属性保持不变,如只把眼睛放大。但麻烦的是,图像的信息被压缩在一个维度很小的隐向量空间中,各个属性耦合十分紧密。因此,如何实现这些属性的解耦、提高人脸属性的可控性就成了一个难题。

3. 生成质量不稳定。由于输入数据的质量和生成模型本身的不稳定性,GAN 模型生成的图像画质可能较低,因此我们还需要采取其他措施来提高生成图像的质量。

4. 计算量大,难以部署在移动端。一个拥有强大生成能力的 GAN 可能计算量要达到上百 G,不适合在移动端部署。因此,如何在不明显损失视觉效果的前提下实现模型的高效压缩成了一个亟待解决的问题。

这些挑战如何克服?

针对上述挑战,腾讯微视的技术团队研发出了一套支持移动端实时特效的 GAN 模型训练和部署框架,整体流程可以概括为以下几个步骤:

  1. 按需求采集非成对数据,并训练高参数量的模型生成成对数据;
  2. 对成对数据进行画质增强;
  3. 利用成对数据训练移动端轻量化模型。

借助这些步骤,模型不需要真实的成对数据也能达到预期的效果,可控性、生成图像的质量都得到了显著提升,还适配各种机型,让更多人用上了简单、高质量的人脸魔法特效。

利用高参数量模型生成成对数据

当成对的数据难以获得,利用高参数量的大模型生成成对数据就成了一个必然选择。生成效果如下图:

为了完成这项任务,微视的技术团队研发了三种不同的大模型

第一种是融合了 CycleGAN 和 StyleGAN 的 Cycle-StyleGAN。StyleGAN 拥有强大的高清人脸生成能力,但它是非条件生成模型,只能通过随机向量生成随机人脸。因此,研究人员引入了 CycleGAN 的思想,使模型具备 image-to-image 的条件生成能力。

Cycle-StyleGAN 的基本结构。

借助这一模型设计,微视研发并上线了变年轻的效果:

但这一模型也有缺点:需要的数据量太大,而且稳定性、可控性都不强。因此,微视又研发了第二种大模型:基于隐向量的属性编辑模型

首先,他们利用亚洲人脸数据集训练了一个高质量的生成模型。该模型通过 AdaIN 模块来提取隐向量的信息,然后利用 Decoder 网络来生成数据。为了解决数据解耦问题,实现单属性可控(如只调节眼睛大小),团队做出了以下优化:

  • 对方向向量进行解耦,摸索出了一套有效的属性解耦方法;
  • 在训练的过程中,通过监督信息控制隐向量的具体意义,比如限定某些维度控制鼻型,某些维度控制脸型。

通过以上操作,团队实现了对大部分属性的单独控制,但眼袋、鱼尾纹等过于细致的属性依旧无法做到干净的解耦。为此,团队开发出了一套基于风格空间的属性编辑方法。此外,团队还针对真实数据与训练数据之间的差异所导致的模糊、噪声等问题进行了优化。

整体来看,第二代大模型不仅提高了模型可控性,还大大减少了数据需求量,可以在只能收集到少量非成对数据的真实人脸生成场景中使用。基于这套方案,微视研发并上线了变明星和变假笑等效果。

然而,现实中的人脸特效需求并不局限于真实人脸,还有一些风格化的需求需要满足,如 CG 人脸生成。这类任务的数据匮乏程度更为严重,因此需要一种数据量需求更小的模型。为此,微视的团队设计了第三种大模型——基于小样本的模型融合模型。这种模型的主要思想是:在收集的少量数据上对预训练的真实人脸模型进行调优训练,使预训练模型能够较好地生成目标风格的图片(如 CG 风格图)。然后,将调优训练后的模型与原始模型进行融合得到一个混合模型,该模型既能生成目标风格的图片,又兼具原始预训练模型强大多样的生成能力。

CG 效果图。

为了增加数据的多样性,研发人员还给该模型加了一个数据增强模块,借助 3D 人脸等技术生成更加多样的数据。借助这一模型,只需要几十张数据就能生成符合要求的人脸

成对数据画质增强

在迭代了三种大模型之后,小模型训练所需的成对数据已经基本就绪,但还需要在美观程度、稳定性和清晰度等方面进行优化。在美观程度方面,微视利用图像处理技术和属性编辑方案对大模型生成的图片进行美化,如利用去皱纹模型去除眼袋和泪沟。在稳定性和清晰度方面,微视参考图像修复和超分辨率的相关方法单独训练了一个既能提升清晰度又能消除人脸瑕疵的 GAN 模型。随机调研的结果显示,用户对美化后的图片的喜爱程度明显提高。

去眼袋和泪沟效果示意图。

移动端小模型训练

在手机上部署的特效对算法的实时性、稳定性要求都很高,因此微视的团队设计了能在移动端流畅运行的小模型结构,把大模型生成的成对数据作为小模型训练的监督信息进行训练和蒸馏。

轻量级的小模型整体骨干基于 Unet 结构,参考了 MobileNet 深度可分离卷积和 ShuffleNet 的特征重利用等优点。为了提高生成图像的清晰度和整体质量,研究团队不仅将整张图放进判别器进行训练,还根据人脸点位裁剪出眼、眉、鼻、嘴,并将其分别输入到判别器进行训练。

为了适配不同机型,团队设计了多种计算量的模型。而且,考虑到低端机部署的模型参数量较少,他们还用到了知识蒸馏的方法让 student 小模型学习到更多的信息。

以上三大步骤帮助微视实现了 image-to-image 的实时特效生成效果,但团队并没有止步于此,他们还实现了实时的轻量化人脸动作迁移。

实时人脸动作迁移

在人脸动作迁移方向,有一部分工作的思路是:首先估计从目标图片到源图片的反向光流,基于光流对源图片的特征表示进行扭曲(warping)操作,然后再恢复出重建结果,例如 Monkey-Net、FOMM 等。微视的实时人脸动作迁移大模型就借鉴了此类方法。

为了实现手机端实时推断,他们在模型大小和计算量两个方面对大模型进行了优化,借鉴 GhostNet 分别设计了相应的小模型结构,从而将模型大小缩减了 99.2%,GFLOPs 降低了 97.7%。为了让小模型成功学到大模型的能力,他们还采用了分阶段蒸馏训练的策略。

训练完小模型之后,团队借助腾讯自己研发的移动端深度学习推理框架 TNN实现了手机端的部署和实时推理,从而使得用户通过摄像头驱动任意人脸图片的玩法变为可能。

做‍特效,腾讯微视优势在哪儿

逼真的效果、高效的模型离不开坚实的技术支撑。这些项目的核心技术由腾讯微视拍摄算法团队与腾讯平台与内容事业群(PCG)应用研究中心(Applied Research Center,ARC)共同研发。腾讯微视拍摄算法团队致力于图像 / 视频方向的技术探索,汇聚了一批行业内顶尖的算法专家和产品经验丰富的研究员和工程师,拥有丰富的业务场景,持续探索前沿 AI 和 CV 算法在内容生产和消费领域的应用和落地。ARC 则是 PCG 的侦察兵和特种兵,主要任务是探索和挑战智能媒体相关的前沿技术,聚焦于音视频内容的生成、增强、检索和理解等方向。

在 AI 特效落地方面,团队建立了以下优势:

  1. 已经搭建了从算法研发、模型迭代到线上部署的一整套流程化框架,可以实现各项技术的快速落地,为探索更多特效提供了效率保证;
  2. 算法经过了多次迭代,数据需求量已经降至很低的水平,几十张图像就能实现不错的效果,使得更多特效的实现成为可能;
  3. 在图像质量提升、模型压缩等方面积累了一些自己的技术,可以保障 AI 模型在各种移动端平台上成功部署。

除了上面讨论的 GAN 之外,研发团队在增强现实、3D 空间理解等方面也做了一些探索,并在微视 APP 上上线了一批特效,这也是当前整个社区比较热门的研究方向。

随着技术的不断迭代,未来,我们还将在微视上看到更多原本只能在论文中看到的惊艳效果。

© THE END

转载请联系本公众号获得授权

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-03-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
揭秘腾讯微视人脸技术「黑科技」,基于GAN的人脸魔法特效
随着小视频越来越流行,兼具趣味与人物个性的人脸特效成为小视频软件的标配,美颜自不必说,现在的人脸特效可谓“千变万化”,人脸年轻化、变欧美范儿、发型改变、各种表情、胖瘦等。
CV君
2021/03/12
2.2K0
揭秘腾讯微视人脸技术「黑科技」,基于GAN的人脸魔法特效
发际线有救了!这款app可一键AI生发,拯救你的自拍焦虑
比起卡粉,闷痘,油光,手残,新一代年轻人的美丽可以来得更容易,快速变美只需要两步,打开美图,摆好pose——诠释那句话,“为了美丽,我坚持开美颜”。
AI科技评论
2021/09/16
9630
你好,这是微视AI还原的李焕英
鱼羊 发自 凹非寺  量子位 报道 | 公众号 QbitAI 看,李焕英这亲切的笑容、明亮的眼眸,是否与银幕上那个她一样有感染力? 你的长辈年轻时,又是否像这张老照片里的人一样,剑眉星目,神采飞扬: 要说最近最火的AI玩法,那真是非腾讯微视“会动的老照片”这类特效莫属。 表情迁移技术与基于GAN的老照片修复技术强强联合,给人一种打开了时光机的感觉,仿佛真的能与老照片里的人隔空对话,追忆往昔。 △“我的女儿,我就要她健康快乐” 并且用户无需任何加工,只需在微视APP里上传一张照片,不到一分钟,都能亲自
博文视点Broadview
2023/05/19
3330
你好,这是微视AI还原的李焕英
人人皆可变身黄金圣斗士:微视用AI一键燃烧小宇宙,还有不同星座可选
机器之心原创 作者:蛋酱 那些年关于变身圣斗士的梦想,如今能在腾讯微视 App 就能实现。 「年轻的青铜圣斗士少年们啊,为了大地上的爱与和平,我们将逝去,献上全部的生命和灵魂,融为一体。就在此刻,燃烧吧,黄金的小宇宙!雅典娜啊,请赐予这黑暗的世界一线光明!」 就是这段话,没错,是我们小时候倒背如流的十二黄金圣斗士语录了。很多人也曾暗中想象,自己能成为这群黄金圣斗士的成员之一。现在,「变身」的机会来了! 在腾讯微视 App,黄金圣斗士铠甲的特效挂件已经正式上线。这是静态照片变身后的样子: 变身的操作方法
机器之心
2023/03/29
5840
人人皆可变身黄金圣斗士:微视用AI一键燃烧小宇宙,还有不同星座可选
快手Y-tech:GAN在短视频中的AI特效实践
近年来,以GAN为代表的生成式技术在学术界取得蓬勃发展。在工业界,基于生成式技术的真实感效果也引领了一批爆款特效和应用。快手Y-tech在国内率先将GAN落地于短视频特效制作,并积累了丰富的实践经验,为快手各类人脸爆款特效提供有力技术支持。本文主要介绍快手在高精度人脸属性编辑方面的实践,包括性别、年龄、头发、表情等的生成。
公众号机器学习与AI生成创作
2021/04/19
2.7K0
快手Y-tech:GAN在短视频中的AI特效实践
程序员至死是少年!在公司竟公然变身圣斗士
杨净 萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 最近,我身边的朋友,突然一个个都变成了圣斗士! 像这种比较炫酷的“飞天”黄金圣斗士,连影子都惟妙惟肖的: 还有这种在办公室偷偷变身双子座圣斗士,想要拯救世界的: 又或者是在自家小花园里变成处女座圣斗士,打破次元壁的: 还有白羊座、天秤座、射手座圣斗士……怎么回事? 原来,这是一群程序员做出的移动端3D圣衣特效,现在只用一部手机,就能随时随地“变身”圣斗士。 又一童年梦想被实现了有木有! 如果不想打开摄像头,也可以只用一张照片,就能成功
量子位
2023/03/10
2890
程序员至死是少年!在公司竟公然变身圣斗士
新知 | 腾讯明眸画质增强 —— 数据驱动下的AI媒体处理
腾讯云音视频画质增强研究团队专注于多媒体技术领域的前沿前沿技术探索、研发、应用和落地。今天的新知系列课,我们邀请到了来自该研究团队的技术导师 —— 陈铭良,为大家介绍他们团队在媒体画质增强工作上的一些方法积累和能力优势。目前他们在画质增强的工作上积极跟进前沿的深度学习算法,并针对性的提出了一些适合于落地的解决方案。通过数据驱动的自动建模和基于AI的媒体处理,部分方法的效果已经超过了当前学术上的state-of-the-art,领先于竞品。 接下来的几周,每周四晚上7:30,我们都会在腾讯云音视频视频号
腾讯云音视频
2021/12/11
1.3K0
刷新纪录,揭秘漫画脸背后的AI技术
昨晚做了一个梦,梦里的我变成漫画里的人物,正在为参与选秀苦练舞蹈,期待着万众瞩目登上舞台的一天。
昱良
2021/02/08
8450
跳舞手脚不协调?没关系,微视用AI打造你我的舞林大会,一张照片就可以
机器之心原创 作者:杜伟 继让老照片动起来、唱歌之后,腾讯微视又解锁了照片的跳舞技能。 80、90 后的小伙伴,应该很熟悉香港歌手陈慧琳的热门歌曲《不如跳舞》吧,歌词中的「聊天不如跳舞,谈恋爱不如跳舞……」风靡了大街小巷,使很多人爱上了跳舞。遗憾的是,对于一些四肢不协调的小伙伴,在人前跳舞无异于一种折磨。但是,不会跳并不意味着看不到自己跳舞的样子。 随着计算机视觉和生成对抗网络的快速发展,人体动作迁移技术的出现使那些没有跳舞天赋的小伙伴也有机会展示自己的舞姿。简单来讲,给定一段别人跳舞的视频和用户的一张照
机器之心
2023/03/29
6700
跳舞手脚不协调?没关系,微视用AI打造你我的舞林大会,一张照片就可以
B站up主用AI还原李焕英 动态影像
春节档上映的《你好,李焕英》让不少人在影院哭得稀里哗啦,它戳中了每个人心里最柔软的部分。有人看完电影之后会给妈妈打个电话,有人会拿出妈妈年轻时的照片,感叹一下爸爸的基因为什么要那么强大。
小小詹同学
2021/03/11
6140
B站up主用AI还原李焕英 动态影像
在最新的计算机视觉研究中,研究人员介绍了“JoJoGAN”:一种具有一次性面部样式化的 AI 方法
样式映射器将预设样式应用于它接收到的照片。在最近的一项研究中,来自伊利诺伊大学厄巴纳-香槟分校的研究人员将JoJoGAN介绍为一种从单个样式样本中学习样式映射器的简单方法。例如,该技术允许没有经验的用户提供样式样本,然后将该样式应用于他们选择的图像。该团队在人脸照片的背景下讨论了它的方法,因为风格化的人脸对没有经验的用户非常有吸引力;然而,这个概念可以应用于任何图像。
代码医生工作室
2022/03/07
8050
在最新的计算机视觉研究中,研究人员介绍了“JoJoGAN”:一种具有一次性面部样式化的 AI 方法
腾讯PCG光影研究室 - 校招&社招火热开启,喊你上车!
 腾讯光影研究室 Tencent GY-Lab 影像前沿 创意无限  魅力光影 与你同行 校招同学敲重点!!! 1 团队介绍 腾讯光影研究室(Tencent GY-Lab)致力于探索泛娱乐综合解决方案,将前沿的AI能力、3D渲染技术,先进的玩法SDK赋能产品,让拍摄特效更丰富,让创作编辑更智能。团队在语义分割、目标检测、分类识别、GAN生成对抗等方面均有深厚的技术积累,目前,QQ、微视等超20款业务产品中均有光影研究室技术的身影。 2 光影的工程能力 Light3D渲染引擎 光影研究室内部开发的L
天天P图攻城狮
2021/03/08
2.3K0
Al 技术在快手短视频创作与理解的应用
在 AICon 全球人工智能与机器学习技术大会(2021)北京站上,快手技术 VP 王仲远带来了主题为《Al 技术在快手短视频创作与理解的应用》的演讲,分享了快手在 AI 技术领域的实践与探索成果。本文由 InfoQ 根据王仲远的演讲内容整理,希望对你有所启发。作为国内短视频行业头部平台之一,快手有 3.2 亿日活用户,月活达 5.7 亿,此外还有 1.8 亿海外月活用户,存量短视频已达数百亿量级。在快手平台上,用户每天会花超过 100 分钟观看短视频及直播内容,用户相互关注数也超过 140 亿。
深度学习与Python
2021/12/16
1.3K0
CVPR2021 | 五官复原效果惊艳,腾讯ARC利用GAN人脸先验来解决
真实世界的人脸复原是一个盲问题,即我们不清楚降质过程, 在实际应用中,同时也面临着各种各样降质过程的挑战。对于人脸这个特定的任务, 之前的工作往往会探索人脸特定的先验, 并且取得了较好的效果。常见的人脸先验有两类:
公众号机器学习与AI生成创作
2021/04/19
1.4K0
CVPR2021 | 五官复原效果惊艳,腾讯ARC利用GAN人脸先验来解决
原来最强赘婿在二次元长这样,秒穿次元壁的AI特效又双叒火了
虽然每天早晨甚至无法从50平米的地铺上醒来,但偶尔刷刷知乎,还是会被这类问题吸引住眼球——
量子位
2020/09/30
4850
原来最强赘婿在二次元长这样,秒穿次元壁的AI特效又双叒火了
照片也能时间旅行?「穿越时空的人脸」新模型化身AI时光机
例如,你有没有想过,如果你自己的照片是在五十年或一百年前拍摄的,会是什么样子?如果你最喜欢的男演员或女演员出生在一个与他们完全不同的时代,他们会是什么样子?
新智元
2023/01/07
4840
照片也能时间旅行?「穿越时空的人脸」新模型化身AI时光机
AI 换脸术「Deepfakes」进化简史
来源 | Maximilian Schreiner 译者 | 核子可乐 策划 | 刘燕 AI前线
公众号机器学习与AI生成创作
2022/10/31
4.3K0
AI 换脸术「Deepfakes」进化简史
抖音超900万人在用的「卡通脸」特效技术揭秘
机器之心发布 机器之心编辑部 火遍抖音的「卡通脸」特效,是怎么做到又逼真又灵动的? 说到特效玩法,抖音的 “整活儿” 能力一直有目共睹。最近,风头正劲的是一款「卡通脸」特效。无论男女老少,用上这款特效后,都仿佛从迪士尼动画里走出来的人物一样灵动可爱。「卡通脸」一经上线,在抖音上迅速发酵,深受用户喜爱,“一键变身高甜卡通脸 ”“全抖音的在逃公主都来了”“用卡通脸花式晒娃 ”“王子公主撒糖手势舞”“捕捉童话魔法失灵瞬间” 等相关热点不断衍生,其中,“全抖音的在逃公主都来了”“捕捉童话魔法失灵瞬间” 更是登上了抖
机器之心
2023/02/23
1.1K0
抖音超900万人在用的「卡通脸」特效技术揭秘
技术解码 | 腾讯明眸技术全面解析——深度学习AI画质增强
不久前,我们为大家介绍了腾讯明眸这一利用腾讯云领先的编解码和媒体处理技术与AI技术融合打造而成的音视频技术品牌(攻城狮手记 | 既高清又低码?腾讯明眸帮你两者兼得)。接下来我们将通过三期文章,从AI智能处理、编解码优化和容器格式优化三个方面,进一步解读分享腾讯云音视频-明眸研究团队在多媒体领域前沿技术方面积累的经验和成果。 本期我们将先从深度学习AI画质增强开始,为大家分享腾讯明眸在AI方向上的探索及思考。 腾讯明眸核心能力展示 目前我们在画质增强的工作上通过结合深度学习网络,针对性的提出了一些
腾讯云音视频
2021/10/25
3.3K0
第七章 AI数据质量-2
数据增强是机器学习中的一项重要技术,用于生成大量高质量、多样化的训练数据集的方法。这种方法的出现背景主要是由于以下几个原因。
bettermanlu
2025/04/15
760
第七章 AI数据质量-2
推荐阅读
相关推荐
揭秘腾讯微视人脸技术「黑科技」,基于GAN的人脸魔法特效
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档