Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >皮克斯技术指导辞职读博:研究AI设计怪物,从《游戏王》卡牌开始

皮克斯技术指导辞职读博:研究AI设计怪物,从《游戏王》卡牌开始

作者头像
量子位
发布于 2021-09-08 08:26:31
发布于 2021-09-08 08:26:31
4230
举报
文章被收录于专栏:量子位量子位
梦晨 发自 凹非寺 量子位 报道 | 公众号 QbitAI

让AI画人脸见得多了,要是让AI画个幻想中的怪物又如何?

来看几个,先是人形的:

再来个兽形的:

还有诡异到说不出来属于什么型的:

你可能会问,这很难吗?

毕竟现在用GAN生成人脸都能以假乱真,生成怪物只要“瞎画”就行了,又不需要像谁。

一位从皮克斯辞职又跑去读博的小哥Vavilala,最近就在研究让AI辅助人类原画师设计怪物这件事。

他的答案是:难,但不是同一种难。

如今的GAN比如英伟达的StyleGAN2,在生成怪物任务上存在一个大问题:

只擅长改变画面的风格,但里面的怪物在人类看起来还是同一种。

他开始思考,如何才能让AI创造出新的怪物?

关键在控制噪声

让AI生成怪物图像,首先要面对问题是数据集变了。

像StyleGAN系列所用的高清人脸数据集FFHQ里面,有7万张人脸照片,而且都是大致朝向正面的大头照。

虽然人的性别年龄肤色表情不一样,但好歹整体结构是相同的,都是一个鼻子两个眼。

小哥用的怪物数据集是从YGOPRODeck上获取的卡牌游戏《游戏王》中的1万多张插画,其中可以算怪物的有6800张,这里面的怪物可是什么样都有。

怪物的图片资源本来就少还要分成不同种类,全身画像在姿势上差异也很大,相当于是稀疏型数据集

数据集变了,算法也要相应的改变。

先看看StyleGAN系列原版的算法。

StyleGAN一代继承自ProGAN,采用渐进式训练,从4x4分辨率开始,每层训练到稳定再将分辨率翻倍,直到1024x1024。

来自Towards Data Science

4x4到32x32分辨率层的特征能改变姿势、发型、脸型、五官等能识别一个人身份的粗粒度特征

从64x64到1024x1024分辨率层就只能调整一下皮肤的颜色和皱纹斑点等细节特征了。

同时StyleGAN系列又靠在每个分辨率层的卷积后添加噪声获得更丰富多样的面部特征,增强图像的质量。

在初代StyleGAN论文中有这样一个实验:

如下图所示,(a)是在所有层添加随机噪声,(b)是无噪声,(c)是只在64x64分辨率及以上的层添加噪声,(d)是只在4x4到32x32分辨率的层添加噪声。

从结果可以看出,对于生成人脸来说需要在所有层上添加噪声。

高分辨率层的噪声能够增加脸上和背景物体上的细节(a、c对比b、d),低分辨率层噪声又控制头发的卷曲看起来不那么夸张(a对比c)

小哥在用游戏王数据集训练的StyleGAN2上做了同样的实验。

结果发现,噪声对于生成怪物来说同样重要,但又有所不同。

用无噪声方法生成的怪物图像在FID分数上惨不忍睹(越小代表生成的图像质量越好)。

在所有层加入噪声会好一些,而只在32x32分辨率以上的层加入噪声效果会更好。

这是因为稀疏型的怪物数据集特征太杂太多,画面还是全身的,噪声改变一点点很容易就面目全非。

等一下,这难道不就创造了新的怪物么?

仔细看上图,生成的几种怪物质量并不算高,容易出现不完整的特征和几种不同类型的特征胡乱拼凑。

修改噪声得到的图像还不可控,因为噪声是随机生成的,不同噪声对最终结果的影响也是不可解释的。

去掉低分辨率层的噪声这个方法,可以减少噪声对怪物图像粗粒度特征的影响,获得高质量图像图像的同时也保留了通过改变噪声获得随机细节的能力。

现在有了适用于生成怪物的魔改版StyleGAN2,最开始那个问题,让AI设计出新的怪物要怎么做?

其实还是靠去掉低分辨率层的噪声,这么一个简单的改动就能解决。

可控的创新

还是先看一下之前的做法。

StyleGAN2的后续研究中,阿尔托大学提出了PCA方法(Principal Component Analysis,主成分分析)。

通过PCA可以在隐空间中找到代表某种特征变化的方向,沿着特定方向修改隐变量(latent variables)能做到独立可控制的修改人脸特征。

如果在生成怪物任务上沿用在所有分辨率层添加噪声的训练方法,PCA的效果又不行了。

此时改变隐变量反倒成了对风格的修改,怪物看起来还是同一种。

改了,但没完全改。

在低分辨率层不添加噪声的训练方法再次发挥了作用。

少了低分辨率层噪声的干扰,PCA方法更容易找出有意义的修改方向,让AI在中间一列原图的基础上设计出新的怪物。

还提出实用Workflow

另外值得一提的是,这位小哥不愧是在大公司实际业务上锻炼过又回到学术界的,写论文不忘了探讨一下如何打造方便一线设计师操作的工作流程。

比如将魔改版StyleGAN2部署到A100上推理时间平均可达0.05秒,能满足即时操作的要求。

再用Streamlit工具可以用很少代码创建交互式的图形界面,用滑块一类的控件方便地调整参数。

论文最后展示了使用GAN中常见的截断技巧(Trunction)、风格混合和PCA方法结合,是怎么一步步设计出新的怪物的。

论文一作Vaibhav Vavilala来自伊利诺伊大学厄巴纳-香槟分校。

他的导师是CV大牛David Forsyth,《计算机视觉:一种现代方法》的作者。

论文地址: https://arxiv.org/abs/2108.08922

参考链接: [1]StyleGAN https://arxiv.org/abs/1812.04948 [2]StyleGAN2 https://arxiv.org/abs/1912.04958 [3]PCA https://arxiv.org/abs/2004.02546 [4]https://towardsdatascience.com/progan-how-nvidia-generated-images-of-unprecedented-quality-51c98ec2cbd2

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-09-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
迪士尼版的「乡村爱情」见过没?刘能、赵四秒变童话脸,人人皆可使用
最近,国外两个技术宅Justin Pinkney和Doron Adler开发了一种AI「神奇」,分分钟秒变「迪士尼脸」。假如你想知道自己在迪士尼动画里会是什么样子,只要在网站上上传一张照片就能解锁了。
新智元
2020/10/29
6110
想用GAN和Deepfake瞒天过海,没那么容易:这是Adobe和加州伯克利的新研究
近来,诸如生成对抗网络(GAN)的深度图像生成技术快速发展,引发了公众的广泛关注和兴趣,但这也使人们担心,我们会逐渐走入一个无法分辨图像真实与否的世界。
机器之心
2020/03/12
5550
想用GAN和Deepfake瞒天过海,没那么容易:这是Adobe和加州伯克利的新研究
Github开源趋势榜Top 1:英伟达升级发布二代StyleGAN,效果更完美
2018 年底,英伟达借鉴风格迁移的思路,提出当时最先进的无条件生成模型—— StyleGAN ,吸引了大家广泛关注。随后,代码开源,一位 Uber 工程师更是利用此模型设计了网站“ThisPersonDoesNotExist.com”,轰动一时。自此,对虚假信息生成技术的研究与讨论延续至今。
AI科技大本营
2019/12/23
9420
Github开源趋势榜Top 1:英伟达升级发布二代StyleGAN,效果更完美
英伟达超快StyleGAN回归,比Stable Diffusion快30多倍,网友:GAN好像只剩下快了
萧箫 发自 凹非寺 量子位 | 公众号 QbitAI 扩散模型的图像生成统治地位,终于要被GAN夺回了? 就在大伙儿喜迎新年之际,英伟达一群科学家悄悄给StyleGAN系列做了个升级,变出个PLUS版的StyleGAN-T,一下子在网上火了。 无论是在星云爆炸中生成一只柯基: 还是基于虚幻引擎风格渲染的森林: 都只需要接近0.1秒就能生成! 同等算力下,扩散模型中的Stable Diffusion生成一张图片需要3秒钟,Imagen甚至需要接近10秒。 不少网友的第一反应是: GAN,一个我太久没听到
量子位
2023/02/23
6820
英伟达超快StyleGAN回归,比Stable Diffusion快30多倍,网友:GAN好像只剩下快了
T2F:所述即所见,使用深度学习,文本一键生成人脸
项目的代码可以在我的版本库获得:https://github.com/akanimax/T2F
AI研习社
2018/07/26
7840
T2F:所述即所见,使用深度学习,文本一键生成人脸
资源 | T2T:利用StackGAN和ProGAN从文本生成人脸
本项目利用深度学习由文本生成人脸图像,除了结合 StackGAN 和 ProGAN,作者还参考了从文本到图像的研究,并修改为从文本合成人脸。
机器之心
2018/07/26
7750
资源 | T2T:利用StackGAN和ProGAN从文本生成人脸
一个模型击溃12种AI造假,各种GAN与Deepfake都阵亡 | 伯克利Adobe新研究
连英伟达本月刚上线的StyleGAN2也被攻破了。即使是人眼都分辨看不出来假脸图片,还是可以被AI正确鉴别。
OpenCV学堂
2020/03/10
7790
一个模型击溃12种AI造假,各种GAN与Deepfake都阵亡 | 伯克利Adobe新研究
StyleGAN3问世,等变性perfect!皮肤、毛发不再粘屏幕,还能360度旋转 | 已开源
刚刚英伟达最新推出的升级版StyleGAN 3,因为一组合成艺术作品刷爆Twitter,不少网友感叹:AI 制造了人类无法理解的恐怖!
AI科技评论
2021/10/21
1.1K0
《赛博朋克2077》是捏脸游戏?上科大学生社团开发了一款赛博“滤镜”
来自上海科技大学的学生社团GeekPie打造了一款全新的“滤镜”,CyberMe。只需上传一张照片,一秒将你带入夜之城!
AI科技大本营
2020/12/18
7700
能生成Deepfake也能诊断癌症,GAN与恶的距离
但是它的爆火不仅是由于这个技术出神入化的好用,还因为由他催生的相关应用导致了各种伦理道德问题。
大数据文摘
2019/07/11
9840
能生成Deepfake也能诊断癌症,GAN与恶的距离
英伟达发布最强图像生成器StyleGAN2,生成图像逼真到吓人
StyleGAN 生成的图像非常逼真,它是一步一步地生成人工的图像,从非常低的分辨率开始,一直到高分辨率(1024×1024)。通过分别地修改网络中每个级别的输入,它可以控制在该级别中所表示的视觉特征,从粗糙的特征(姿势、面部形状)到精细的细节(头发颜色),而不会影响其它的级别。
新智元
2019/12/18
2.7K0
GAN的发展系列二(PGGAN、SinGAN)
在前面的文章里我们已经介绍了GAN生成对抗网络的入门和一些GAN系列,在之后的专辑里会继续介绍一些比较经典的GAN。
Minerva
2020/06/16
2.9K0
GAN的发展系列二(PGGAN、SinGAN)
别人家的高中生:入大学前,Ta详细梳理了GAN的发展脉络
昨天,reddit 上出现了一个关于梳理 GAN 发展脉络的博客,作者在博客中详细梳理了过去几年的 GAN 发展历程,包含众多 SOTA 论文及其代码和对应的学习资源。难能可贵的是,博客作者三月份才刚高中毕业,然后利用上大学之前的时间完成了这篇文章。
机器之心
2019/07/03
6420
别人家的高中生:入大学前,Ta详细梳理了GAN的发展脉络
挑战 11 种 GAN的图像真伪,DeepFake鉴别一点都不难 | CVPR2020
近年来,图像合成技术日趋进步,GAN在给我们带来艺术体验的同时也埋下了很多隐患。Deepfake(AI换脸)技术让很多事情的真实性变得扑朔迷离,甚至会产生极大的政治影响。比如加蓬共和国总统的一段录像被反对派声称是假的,这成为了政变失败的因素之一。
AI科技评论
2020/03/16
4.6K0
挑战 11 种 GAN的图像真伪,DeepFake鉴别一点都不难 | CVPR2020
一文看尽深度学习中的生成对抗网络 | CVHub带你看一看GANs架构发展的8年
生成对抗网络 (Generative Adversarial Networks, GANs) 在过去几年中被广泛地研究,其在图像生成、图像转换和超分辨率等领域取得了显著的进步。到目前为止,已经提出了大量基于GANs的相关工作和综述。本文基于柏林圣三一大学计算机科学与统计学院的王正蔚博士与字节跳动AI实验室联合发表的一篇综述[1]为基础,详细的解读GANs的来龙去脉,同时为大家介绍近期一些相关工作,中间也会穿插一些笔者的见解。最后,本文也将列出一些可探索的未来研究方向,希望能给予读者一些启发。
AIWalker
2021/07/05
1.6K0
一文看尽深度学习中的生成对抗网络 | CVHub带你看一看GANs架构发展的8年
CVPR 2020丨图像超清化+老照片修复技术,拯救你所有的模糊、破损照片
也许你曾从橱柜里翻出家人们压箱底的老照片,而它们已经泛黄发脆,甚至有些褪色;也许你在拍照时不慎手抖,只好把糊成一片的照片都丢进“最近删除”。而微软亚洲研究院在计算机视觉顶会 CVPR 2020 发表的两项黑科技——基于纹理 Transformer 模型的图像超分辨率技术,和以三元域图像翻译为思路的老照片修复技术,将能让这些照片奇迹般地恢复如初。同时,图像超分别率技术将于近期上线 PowerPoint,未来也将有更多图像修复技术集成进微软 Office 产品中。
马上科普尚尚
2020/06/29
2.1K0
CVPR 2020丨图像超清化+老照片修复技术,拯救你所有的模糊、破损照片
TransGAN更新!用纯Transformer构建高分辨率GAN
CV 研究者对 transformer 产生了极大的兴趣并取得了不少突破。这表明,transformer 有可能成为计算机视觉任务(如分类、检测和分割)的强大通用模型。我们都很好奇:在计算机视觉领域,transformer 还能走多远?对于更加困难的视觉任务,比如生成对抗网络 (GAN),transformer 表现又如何?
昱良
2021/07/01
1.4K0
TransGAN更新!用纯Transformer构建高分辨率GAN
SRCNN:基于深度学习的超分辨率开山之作回顾
本文提供了与SRCNN论文的总结和回顾,如果你对于图像的超分辨率感兴趣,一定要先阅读这篇论文,他可以说是所有基于深度学习的超分辨率模型的鼻祖
deephub
2022/06/04
5470
SRCNN:基于深度学习的超分辨率开山之作回顾
GAN已死?GAN万岁!布朗康奈尔新作爆火,一夜碾压扩散模型
此前曾掀起AI圈巨大风暴的GAN,后来却逐渐沉寂了,甚至有人发出了「GAN已死」的论调。
新智元
2025/02/15
1300
GAN已死?GAN万岁!布朗康奈尔新作爆火,一夜碾压扩散模型
王者荣耀开源环境上榜!九月AI研究GitHub排行来了,「star多」才叫好论文
有网友根据论文在GitHub仓库获得的stars,对论文进行了一次排行,其中包括王者荣耀竞技场、大规模中文科学文献库等。
新智元
2023/01/06
1.1K0
王者荣耀开源环境上榜!九月AI研究GitHub排行来了,「star多」才叫好论文
推荐阅读
迪士尼版的「乡村爱情」见过没?刘能、赵四秒变童话脸,人人皆可使用
6110
想用GAN和Deepfake瞒天过海,没那么容易:这是Adobe和加州伯克利的新研究
5550
Github开源趋势榜Top 1:英伟达升级发布二代StyleGAN,效果更完美
9420
英伟达超快StyleGAN回归,比Stable Diffusion快30多倍,网友:GAN好像只剩下快了
6820
T2F:所述即所见,使用深度学习,文本一键生成人脸
7840
资源 | T2T:利用StackGAN和ProGAN从文本生成人脸
7750
一个模型击溃12种AI造假,各种GAN与Deepfake都阵亡 | 伯克利Adobe新研究
7790
StyleGAN3问世,等变性perfect!皮肤、毛发不再粘屏幕,还能360度旋转 | 已开源
1.1K0
《赛博朋克2077》是捏脸游戏?上科大学生社团开发了一款赛博“滤镜”
7700
能生成Deepfake也能诊断癌症,GAN与恶的距离
9840
英伟达发布最强图像生成器StyleGAN2,生成图像逼真到吓人
2.7K0
GAN的发展系列二(PGGAN、SinGAN)
2.9K0
别人家的高中生:入大学前,Ta详细梳理了GAN的发展脉络
6420
挑战 11 种 GAN的图像真伪,DeepFake鉴别一点都不难 | CVPR2020
4.6K0
一文看尽深度学习中的生成对抗网络 | CVHub带你看一看GANs架构发展的8年
1.6K0
CVPR 2020丨图像超清化+老照片修复技术,拯救你所有的模糊、破损照片
2.1K0
TransGAN更新!用纯Transformer构建高分辨率GAN
1.4K0
SRCNN:基于深度学习的超分辨率开山之作回顾
5470
GAN已死?GAN万岁!布朗康奈尔新作爆火,一夜碾压扩散模型
1300
王者荣耀开源环境上榜!九月AI研究GitHub排行来了,「star多」才叫好论文
1.1K0
相关推荐
迪士尼版的「乡村爱情」见过没?刘能、赵四秒变童话脸,人人皆可使用
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档