Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >英伟达又一次突破想象力!一句话实时P图在线Demo可玩,「神笔马良」升级「创世纪」

英伟达又一次突破想象力!一句话实时P图在线Demo可玩,「神笔马良」升级「创世纪」

作者头像
量子位
发布于 2021-12-02 07:29:37
发布于 2021-12-02 07:29:37
6970
举报
文章被收录于专栏:量子位量子位
明敏 萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI

在“一句话生成照片”这件事上,英伟达又一次突破了大伙的想象力。

他们最新的AI模型GauGAN2,不仅能根据字词生成逼真风景照,还能实时用文字P图

输入一句“海浪击打岸边石”,立刻输出一张逼真照片:

单词短语,这只AI全都能get!

那感觉,简直是要山得山,要水得水:

要是觉得哪部分你不喜欢,直接打字就能“P图”:

上面这些效果,都是英伟达这个叫做“GauGAN2”的模型做出来的,而它的“完整版”功能,还远不止这些。

从草图到文字,都能生成风景照

GauGAN2的绘制模式,一共分为三种。

第一种,打字生成图片。

我们先试了一下单个词组,“阳光(sunshine)”,生成如下图片:

加上限定词in the forest后,AI立刻就将场景换到了树林里,变成光洒在树林中的场景:

再多来点限定词也没问题。

像“冬日树林中的阳光”,输入in winter后,眼前本来郁郁葱葱的树林立刻“全秃了”,换成了雪景下的一幕:

这效果,u1s1(有一说一)确实不错。

还能输出不同style的风景图,例如输入“大山(mountain)”一词,立刻要山有山,还能给你换不同风格:

当然,这些不同的风景照也都能继续生成新细节,在mountain后加上“beside a river”就能生成山水:

第二种,“打字P图”,直接用文字编辑部分图像。

只需要把想替换掉的部分圈出来,输入你想要的东西,就能立刻造出各种新颖的风景图:

嗯……英伟达给出的这个demo,思路也是非常清奇了,“浮在空中的城堡”:

第三种,用涂鸦生成风景照。

这是上一代GauGAN2(2019年英伟达推出的GauGAN)的看家本领。

例如,要是想实现下面这样的“一片天空两个太阳”,就完全可以在通过文本生成的图像上,自己手动再加一个。

这几种玩法叠加在一起,简直让网友们脑洞大开。

像外媒ZDNet就恶搞出来了一种神奇的玩法,在已有的风景上画个人头:

然后让GauGAN2根据已有的画面,再重新生成图画,就会得到如下“人头海岛”的神奇景观:

不过这可能也对个人画技有所要求,在我们的灵魂画风下,效果看上去就有些……不太聪明的亚子。

那么,生成这一系列风景照的GauGAN2,背后究竟用了什么原理?

它与OpenAI今年发布的DALL·E和CLIP,又究竟有什么区别?

与DALL·E有什么不同?

2019年,英伟达GauGAN2的“前身”GauGAN正式开源。

当时的它,还只拥有其中一个能力,就是将涂鸦直接变成风景画,就像「神笔马良」一样,还推出了对应的软件Canvas:

当然,这时GauGAN已经能随意改变画面风格了,从白天黑夜到春夏秋冬的气质都能稳稳“拿捏”:

据英伟达介绍,GauGAN采用了一种基于空间适应标准化(SPADE)算法。

SPADE算法不仅使用随机的输入图像,还采用了一种被称作“分割图”的图像。在分割图中,每一个像素都会被归类,来生成更接近于真实的图像,这种模式被称作“图对图翻译”。

GauGAN的技能点(狗头)

现在,英伟达将GauGAN升级成了GauGAN2,后者一共采用了1000万张高质量的图片、在英伟达Selene超算上进行训练,这台超算在Green500排行榜上排到世界第二。

生成这些风景画的效果和“手法”,是不是感觉有点熟悉?

没错,大多数人看到GauGAN2的第一眼,可能都会觉得它和OpenAI的DALL·E+CLIP有点像。

今年年初,OpenAI用DALL·E和CLIP两个模型,做了个“图像版”GPT-3,同样能用一句话生成图片。

不过,这两个模型生成的内容其实不太一样。

GauGAN2专注于生成风景照,DALL·E+CLIP则更多地生成具体的物体,例如一把椅子或者一个闹钟等。

这与它们的原理差异也有关系,GauGAN2更加注重“单词与视觉效果”之间的关系,例如“冬天”这种模糊的状态词给照片带来的效果;DALL·E+CLIP则更注重“文字-图像”这种有明确对应关系的物体效果。

据英伟达介绍,GauGAN2不同于“文本-图像”和“分割图像-图像”一类的模型,它所能产生的照片种类更多,质量也会更高。

不过,偶尔也会出现点bug…

比如给出“沙滩(beach)”一词后,有些生成的画面中出现了语言无法描述的事物。

对此,英伟达表示,他们在训练中“完全没有用到任何人像照片”。(所以可能是偶然?)

但这样一来,网友想要的“瑞克摇(Rick roll)”和“鬼畜视频生成”,GauGAN2大概也是没办法实现了。

但是能生成仿佛梦境中才能见到的画面,也吸引了不少人来试玩。

这不,有人就晒出了自己生成的抽象画大作,并表示自己非常喜欢这个模型:

还有人表示,GauGAN2给出了一些建筑设计的新idea啊。

也有网友觉得这种能够自动生成景观的功能,未来Adobe可能也会用上。

或许就是下一个画手利器?

最后,GauGAN2在浏览器上就能试玩,欢迎大家留言讨论自己的体验感受~

GauGAN2试玩Demo地址: http://gaugan.org/gaugan2/

参考链接: [1]https://twitter.com/NVIDIAAI/status/1462835802266902535 [2]https://blogs.nvidia.com/blog/2021/11/22/gaugan2-ai-art-demo/?ncid=so-twit-261232-vt16#cid=nr01_so-twit_en-us [3]https://venturebeat.com/2021/11/22/nvidias-latest-ai-tech-translates-text-into-landscape-images/ [4]https://www.zdnet.com/article/the-absurd-beauty-of-hacking-nvidias-gaugan-2-ai-image-machine/ [5]https://blogs.microsoft.com/ai/drawing-bot/ [6]https://www.nvidia.com/en-us/studio/canvas/

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-11-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
太赞了!英伟达又一突破,输入关键词就可以生成直逼摄影师的大片
近日,英伟达官方推出 GauGAN2 的人工智能系统,它是其 GauGAN 模型的继承者,它不仅能根据字词生成逼真的风景图像,还能实时用文字P图!
AI科技大本营
2021/11/25
5090
太赞了!英伟达又一突破,输入关键词就可以生成直逼摄影师的大片
给几个关键词就能出摄影大片,英伟达GauGAN上新2.0:将文本转成逼真图像
机器之心报道 编辑:小舟、陈萍 这么美的照片竟然不是出自摄影师之手?! 在 2019 年举办的 GTC 大会上,英伟达展示了一款新的交互应用 GauGAN:利用生成对抗网络(GAN)将分割图转换为栩栩如生的图像。 时隔 2 年,英伟达官方推出了 GauGAN 的继任者 GauGAN2,允许用户创建不存在的逼真风景图像。GauGAN2 将分割映射、修复和文本到图像生成等技术结合在一个工具中,旨在输入文字和简单的绘图就能创建逼真的图像。 ‍ 英伟达表示:「与类似的图像生成模型相比,GauGAN2 的神经网络
机器之心
2023/03/29
4140
给几个关键词就能出摄影大片,英伟达GauGAN上新2.0:将文本转成逼真图像
Nvidia「艺术家神器」GauGAN发布第二代!训练超1000万张图片,两个词就能生成风景画
最近,英伟达发布了实时绘画工具GauGAN的第二代,主要特性是支持输入文本来生成图像。
磐创AI
2021/12/01
1.5K0
Nvidia「艺术家神器」GauGAN发布第二代!训练超1000万张图片,两个词就能生成风景画
英伟达GauGAN2 AI:用户输入文本字符,AI就会实时生成图景
英伟达的GauGAN2 AI现在可以使用简单的书写短语来生成相应的逼真图像。该深度学习模型仅用三四个单词就能够生成不同的场景。 GauGAN是英伟达开发的AI软件,用于在2019年将简单的涂鸦变成逼真的杰作,这项技术最终在今年早些时候变成了英伟达Canvas应用程序。现在英伟达进一步完善了这项AI技术,只需要简短的描述就可以生成“照片”。 英伟达表示,GauGAH背后的深度学习模型让任何人都可以生成漂亮的场景,而且现在比以往任何时候更容易实现。用户只需要输入“海滩日落”之类的短语,该AI就会在添加每个单词
云头条
2022/03/18
6670
草图秒变风景照,英伟达神笔马良GaoGAN终于开源了
还记得英伟达在 GTC 2019 披露的令人惊叹的图像生成器 GauGAN 吗?仅凭几根线条,草图秒变风景照,自动生成照片级逼真图像的技术堪比神笔马良。
代码医生工作室
2019/06/21
1.8K0
草图秒变风景照,英伟达神笔马良GaoGAN终于开源了
英伟达GauGAN上线测试一个月,生成图像超50万张!
今年3月,在加州圣何塞举行的GPU技术大会(GTC)上,Nvidia揭开了GauGAN的面纱,这是一种生成对抗性AI系统,可以让用户创建实际并不存在的逼真风景图像。GauGAN测试版在Playground平台上发布后的第一个月,就已经生成了50万张图片,包括电影、视频游戏等概念艺术领域均有应用。
新智元
2019/08/06
6870
英伟达“神笔马良”GauGAN发布Windows应用程序,可导出PSD文件
操作系统:Windows 10 GPU:GeForce RTX, NVIDIA RTX, Quadro RTX, TITAN RTX 显卡驱动:460.89或更高版本
量子位
2021/07/19
5740
英伟达“AI神笔马良”GauGAN开放测试了!无需注册人人可玩
在今年3月的GTC 2019上,英伟达推出了一个令人惊叹的图像生成器。它使用生成对抗性网络(GAN),用户只需点击几下即可绘制出近乎真实的图像。该软件能够立即将几行草草勾勒的轮廓图,变成华丽的山顶日落图景。
新智元
2019/06/19
4.7K0
英伟达“AI神笔马良”GauGAN开放测试了!无需注册人人可玩
英伟达把P图软件GAN了
只要你会上传图片、能画草图,就能够轻松P图。如此“魔性”的工具,难怪得到了网友热捧。
量子位
2021/12/09
6110
英伟达把P图软件GAN了
老黄没来!英伟达祭出GPU之王RTX 3090Ti,元宇宙平台开放
这不,全能性价比的GPU之王RTX 3050来了,仅要249美元,不仅能60fps畅玩3A游戏,还支持DLSS。
新智元
2022/02/24
7080
老黄没来!英伟达祭出GPU之王RTX 3090Ti,元宇宙平台开放
把「我的世界」马赛克变成逼真大片,英伟达又出黑科技
GANcraft由英伟达和康奈尔大学合作完成,它是一个无监督3D神经渲染框架,可以将大型3D块状世界生成为逼真图像。
量子位
2021/04/23
4880
把「我的世界」马赛克变成逼真大片,英伟达又出黑科技
英伟达GTC十周年游乐场!黄老板演示马良神笔草图变实景,发布99美元迷你AI插件
今天,英伟达2019GPU 技术大会(GTC19)在美国加利福尼亚州圣何塞举行。在这一严重拖堂、长达2小时40分钟的Keynote演讲中,英伟达创始人兼首席执行官黄仁勋火力全开,宣布了该公司在软件、机器学习平台,以及自动驾驶上的一系列新动作。
大数据文摘
2019/04/09
6700
英伟达GTC十周年游乐场!黄老板演示马良神笔草图变实景,发布99美元迷你AI插件
AI视觉字谜爆火!梦露转180°秒变爱因斯坦,英伟达高级AI科学家:近期最酷的扩散模型
这是最近在社交媒体上爆火的扩散模型视错觉画,随便给AI两组不同的提示词,它都能给你画出来!
量子位
2023/12/05
1860
AI视觉字谜爆火!梦露转180°秒变爱因斯坦,英伟达高级AI科学家:近期最酷的扩散模型
一文盘点NeurIPS'22杰出论文亮点!英伟达AI大佬一句话总结每篇重点,一并看透今年技术趋势
师从李飞飞,现在在英伟达工作的大佬,用49条推文,带你回顾过去一年AI圈的重要研究。
量子位
2022/12/09
3770
一文盘点NeurIPS'22杰出论文亮点!英伟达AI大佬一句话总结每篇重点,一并看透今年技术趋势
外星人的梦境?CLIP模型让GAN用一句话生成奇幻艺术作品
自从OpenAI开源了CLIP模型的权重和代码之后,网友们就开始利用它去创造各种有趣的视觉艺术。
新智元
2021/07/29
1.1K0
​​「我的老板连夜改行」OpenAI GPT4o放出「一嘴之力」:深度实测效果流出,一句话生成电影级画面,人类或失去想象力霸权
今日凌晨,OpenAI在毫无预兆的情况下,向全球用户推送了GPT-4o原生图像生成功能。这项被内部称为“视觉大爆炸”的更新,标志着语言模型首次突破文本界限,将图像生成能力内化为核心功能。从产品海报到科学图解,从动漫转绘到历史场景重建,用户只需用自然语言描述需求,GPT-4o即可在1分钟内生成专业级图像——甚至支持多轮对话迭代优化。这不仅是技术层面的突破,更是一场从工具到生态的全方位革命。
AI研思录
2025/03/27
2140
​​「我的老板连夜改行」OpenAI GPT4o放出「一嘴之力」:深度实测效果流出,一句话生成电影级画面,人类或失去想象力霸权
当设计遇上AI
一、背景 最近AI创作内容火爆网络,让我们看到AI在设计上充满想象力的未来。关于AI在设计上应用的探索由来已久,从早几年的智能广告素材,智能Logo再到如今的AIGC,AI的成长突飞猛进。本文尝试梳理AI目前在设计领域应用的最新进展,展望设计行业在AI技术影响下可能发生的变革。 二、AI与设计相关的最新技术 1、自动化内容生成(AIGC) 从文本-图像、文本-视频、文本-3D模型到智能字体、智能文本,AI在各类内容的创造上已经突飞猛进,强大到让人惊叹地步。 1.1 文本-图像技术 近一两年以来,各大平台推出
腾讯ISUX
2023/04/14
9740
当设计遇上AI
7 Papers & Radios | NeurIPS'22获奖论文;英伟达一句话生成3D模型
机器之心 & ArXiv Weekly Radiostation 参与:杜伟、楚航、罗若天 本周主要论文包括 NeurIPS 2022 获奖论文;英伟达提出的一句话生成 3D 模型等研究。 目录 Is
机器之心
2022/12/16
5250
7 Papers & Radios | NeurIPS'22获奖论文;英伟达一句话生成3D模型
一句话一张图秒变3D动画,4K级超清画质!英伟达祭出新作,游戏生成世界成真
不满足于只是自己在纸上照着自己的想法去写写画画,但是又没精力去学习专业的3D建模技能,怎么破?
新智元
2025/02/15
1350
一句话一张图秒变3D动画,4K级超清画质!英伟达祭出新作,游戏生成世界成真
推荐阅读
太赞了!英伟达又一突破,输入关键词就可以生成直逼摄影师的大片
5090
给几个关键词就能出摄影大片,英伟达GauGAN上新2.0:将文本转成逼真图像
4140
Nvidia「艺术家神器」GauGAN发布第二代!训练超1000万张图片,两个词就能生成风景画
1.5K0
英伟达GauGAN2 AI:用户输入文本字符,AI就会实时生成图景
6670
草图秒变风景照,英伟达神笔马良GaoGAN终于开源了
1.8K0
英伟达GauGAN上线测试一个月,生成图像超50万张!
6870
英伟达“神笔马良”GauGAN发布Windows应用程序,可导出PSD文件
5740
英伟达“AI神笔马良”GauGAN开放测试了!无需注册人人可玩
4.7K0
英伟达把P图软件GAN了
6110
老黄没来!英伟达祭出GPU之王RTX 3090Ti,元宇宙平台开放
7080
把「我的世界」马赛克变成逼真大片,英伟达又出黑科技
4880
英伟达GTC十周年游乐场!黄老板演示马良神笔草图变实景,发布99美元迷你AI插件
6700
AI视觉字谜爆火!梦露转180°秒变爱因斯坦,英伟达高级AI科学家:近期最酷的扩散模型
1860
一文盘点NeurIPS'22杰出论文亮点!英伟达AI大佬一句话总结每篇重点,一并看透今年技术趋势
3770
外星人的梦境?CLIP模型让GAN用一句话生成奇幻艺术作品
1.1K0
​​「我的老板连夜改行」OpenAI GPT4o放出「一嘴之力」:深度实测效果流出,一句话生成电影级画面,人类或失去想象力霸权
2140
当设计遇上AI
9740
7 Papers & Radios | NeurIPS'22获奖论文;英伟达一句话生成3D模型
5250
一句话一张图秒变3D动画,4K级超清画质!英伟达祭出新作,游戏生成世界成真
1350
相关推荐
太赞了!英伟达又一突破,输入关键词就可以生成直逼摄影师的大片
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档