Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >英伟达又一次突破想象力!一句话实时P图在线Demo可玩,「神笔马良」升级「创世纪」

英伟达又一次突破想象力!一句话实时P图在线Demo可玩,「神笔马良」升级「创世纪」

作者头像
量子位
发布于 2021-12-02 07:29:37
发布于 2021-12-02 07:29:37
6970
举报
文章被收录于专栏:量子位量子位
明敏 萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI

在“一句话生成照片”这件事上,英伟达又一次突破了大伙的想象力。

他们最新的AI模型GauGAN2,不仅能根据字词生成逼真风景照,还能实时用文字P图

输入一句“海浪击打岸边石”,立刻输出一张逼真照片:

单词短语,这只AI全都能get!

那感觉,简直是要山得山,要水得水:

要是觉得哪部分你不喜欢,直接打字就能“P图”:

上面这些效果,都是英伟达这个叫做“GauGAN2”的模型做出来的,而它的“完整版”功能,还远不止这些。

从草图到文字,都能生成风景照

GauGAN2的绘制模式,一共分为三种。

第一种,打字生成图片。

我们先试了一下单个词组,“阳光(sunshine)”,生成如下图片:

加上限定词in the forest后,AI立刻就将场景换到了树林里,变成光洒在树林中的场景:

再多来点限定词也没问题。

像“冬日树林中的阳光”,输入in winter后,眼前本来郁郁葱葱的树林立刻“全秃了”,换成了雪景下的一幕:

这效果,u1s1(有一说一)确实不错。

还能输出不同style的风景图,例如输入“大山(mountain)”一词,立刻要山有山,还能给你换不同风格:

当然,这些不同的风景照也都能继续生成新细节,在mountain后加上“beside a river”就能生成山水:

第二种,“打字P图”,直接用文字编辑部分图像。

只需要把想替换掉的部分圈出来,输入你想要的东西,就能立刻造出各种新颖的风景图:

嗯……英伟达给出的这个demo,思路也是非常清奇了,“浮在空中的城堡”:

第三种,用涂鸦生成风景照。

这是上一代GauGAN2(2019年英伟达推出的GauGAN)的看家本领。

例如,要是想实现下面这样的“一片天空两个太阳”,就完全可以在通过文本生成的图像上,自己手动再加一个。

这几种玩法叠加在一起,简直让网友们脑洞大开。

像外媒ZDNet就恶搞出来了一种神奇的玩法,在已有的风景上画个人头:

然后让GauGAN2根据已有的画面,再重新生成图画,就会得到如下“人头海岛”的神奇景观:

不过这可能也对个人画技有所要求,在我们的灵魂画风下,效果看上去就有些……不太聪明的亚子。

那么,生成这一系列风景照的GauGAN2,背后究竟用了什么原理?

它与OpenAI今年发布的DALL·E和CLIP,又究竟有什么区别?

与DALL·E有什么不同?

2019年,英伟达GauGAN2的“前身”GauGAN正式开源。

当时的它,还只拥有其中一个能力,就是将涂鸦直接变成风景画,就像「神笔马良」一样,还推出了对应的软件Canvas:

当然,这时GauGAN已经能随意改变画面风格了,从白天黑夜到春夏秋冬的气质都能稳稳“拿捏”:

据英伟达介绍,GauGAN采用了一种基于空间适应标准化(SPADE)算法。

SPADE算法不仅使用随机的输入图像,还采用了一种被称作“分割图”的图像。在分割图中,每一个像素都会被归类,来生成更接近于真实的图像,这种模式被称作“图对图翻译”。

GauGAN的技能点(狗头)

现在,英伟达将GauGAN升级成了GauGAN2,后者一共采用了1000万张高质量的图片、在英伟达Selene超算上进行训练,这台超算在Green500排行榜上排到世界第二。

生成这些风景画的效果和“手法”,是不是感觉有点熟悉?

没错,大多数人看到GauGAN2的第一眼,可能都会觉得它和OpenAI的DALL·E+CLIP有点像。

今年年初,OpenAI用DALL·E和CLIP两个模型,做了个“图像版”GPT-3,同样能用一句话生成图片。

不过,这两个模型生成的内容其实不太一样。

GauGAN2专注于生成风景照,DALL·E+CLIP则更多地生成具体的物体,例如一把椅子或者一个闹钟等。

这与它们的原理差异也有关系,GauGAN2更加注重“单词与视觉效果”之间的关系,例如“冬天”这种模糊的状态词给照片带来的效果;DALL·E+CLIP则更注重“文字-图像”这种有明确对应关系的物体效果。

据英伟达介绍,GauGAN2不同于“文本-图像”和“分割图像-图像”一类的模型,它所能产生的照片种类更多,质量也会更高。

不过,偶尔也会出现点bug…

比如给出“沙滩(beach)”一词后,有些生成的画面中出现了语言无法描述的事物。

对此,英伟达表示,他们在训练中“完全没有用到任何人像照片”。(所以可能是偶然?)

但这样一来,网友想要的“瑞克摇(Rick roll)”和“鬼畜视频生成”,GauGAN2大概也是没办法实现了。

但是能生成仿佛梦境中才能见到的画面,也吸引了不少人来试玩。

这不,有人就晒出了自己生成的抽象画大作,并表示自己非常喜欢这个模型:

还有人表示,GauGAN2给出了一些建筑设计的新idea啊。

也有网友觉得这种能够自动生成景观的功能,未来Adobe可能也会用上。

或许就是下一个画手利器?

最后,GauGAN2在浏览器上就能试玩,欢迎大家留言讨论自己的体验感受~

GauGAN2试玩Demo地址: http://gaugan.org/gaugan2/

参考链接: [1]https://twitter.com/NVIDIAAI/status/1462835802266902535 [2]https://blogs.nvidia.com/blog/2021/11/22/gaugan2-ai-art-demo/?ncid=so-twit-261232-vt16#cid=nr01_so-twit_en-us [3]https://venturebeat.com/2021/11/22/nvidias-latest-ai-tech-translates-text-into-landscape-images/ [4]https://www.zdnet.com/article/the-absurd-beauty-of-hacking-nvidias-gaugan-2-ai-image-machine/ [5]https://blogs.microsoft.com/ai/drawing-bot/ [6]https://www.nvidia.com/en-us/studio/canvas/

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-11-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Sebastian Raschka 新书《从头开始推理》抢先看,揭秘推理模型基础
推理模型发展正盛,著名 AI 技术博主 Sebastian Raschka 也正在写一本关于推理模型工作方式的新书《Reasoning From Scratch》。在此之前,他已经出版了多本 AI 领域的著名书籍,包括《Build a Large Language Model (From Scratch)》、《Machine Learning Q and AI》、《Machine Learning with PyTorch and Scikit-Learn》。
机器之心
2025/05/04
1310
Sebastian Raschka 新书《从头开始推理》抢先看,揭秘推理模型基础
强推理模型解决组合爆炸问题的关键方法与实践
在人工智能领域,组合爆炸问题是一个长期存在的难题。它指的是当问题规模增大时,可能的状态或组合数量指数呈级增长,导致计算资源和时间消耗急剧上升。这一问题尤其在需要精确推理和全局优化的应用场景中表现得尤为突出。然而,强随着推理模型的不断发展,这一难题正在逐步攻克被。本文将从多个角度探讨强推理模型如何应对组合爆炸问题,并分析其在实际应用中的表现与前景。
用户7353950
2025/02/25
1570
强推理模型解决组合爆炸问题的关键方法与实践
图说人工智能简史,每一张图片都是一个里程碑
在人类文明的漫长历程中,对于智慧的追求从未停歇。自古代哲学家对逻辑和推理的探索,到20世纪计算机科学的诞生,我们见证了人工智能(Artificial Intelligence, AI)从概念的萌芽到技术的蓬勃发展。人工智能,作为计算机科学的一个分支,其核心目标是模拟人类思维,赋予机器学习、推理乃至创造的能力。AI大眼萌将带大家回顾人工智能发展的各个阶段。
AI大眼萌
2025/01/27
7.7K1
图说人工智能简史,每一张图片都是一个里程碑
【人工智能】推理大模型与预训练大模型:架构差异与认知范式的技术解构
在大模型领域中预训练大模型与推理优化大模型代表着两种截然不同的认知范式。本文将从预训练大模型和推理大模型的发展之路开始,从表征学习、计算图优化、任务泛化三个维度展开技术剖析,说明二者在模型动力学层面的本质差异。
云帆沧海
2025/04/23
1500
AI抢攻人类奥赛金牌!DeepMind数学模型做对25道IMO几何题,GPT-4惨败得0分
这个名叫AlphaGeometry的AI系统,能做出国际数学奥林匹克(IMO)的30道几何题中的25道,这个表现,已经接近了人类的奥数金牌得主。
新智元
2024/01/18
3520
AI抢攻人类奥赛金牌!DeepMind数学模型做对25道IMO几何题,GPT-4惨败得0分
奥数能力金牌级:DeepMind几何推理模型登上Nature,代码开源,菲尔兹奖得主点赞
在今天发表的国际权威期刊《自然》杂志最新一期上,论文《Solving olympiad geometry without human demonstrations》向世人介绍了 AlphaGeometry,专家表示,这是人工智能朝着具有人类推理能力方向迈进的重要一步。
机器之心
2024/01/18
2550
奥数能力金牌级:DeepMind几何推理模型登上Nature,代码开源,菲尔兹奖得主点赞
【大咖论道】周志华,唐杰教授等专家,站在 2022,展望大模型的未来
28 日,阿里巴巴达摩院发布 2022 十大科技趋势。其中,“大模型参数竞赛进入冷静期,大小模型将在云边端协同进化”的断言,在 AI 圈备受关注。
深度学习技术前沿公众号博主
2021/12/30
6130
【大咖论道】周志华,唐杰教授等专家,站在 2022,展望大模型的未来
几经沉浮,人工智能(AI)前路何方?
如同蒸汽时代的蒸汽机、电气时代的发电机、信息时代的计算机和互联网,人工智能(AI)正赋能各个产业,推动着人类进入智能时代。
算法进阶
2022/06/01
1.1K0
几经沉浮,人工智能(AI)前路何方?
当AI开始质疑图灵测试:智能本质的重新定义
2023年4月,GPT-4在特殊设置的图灵测试中取得92%的通过率时,硅谷实验室的摄像头记录下诡异一幕:测试工程师并未欢呼,反而陷入集体沉默。这个历史性时刻暴露出一个令人不安的真相——我们用来衡量智能的标尺正在被测量对象本身摧毁。
码事漫谈
2025/03/30
1250
当AI开始质疑图灵测试:智能本质的重新定义
为什么说机器学习不是人工智能?
我们知道的远比我们说出来的要多得多,我们不知道的远比我们知道的要多得多,我们不知道我们不知道的远比我们不知道的要多得多……
马上科普尚尚
2020/05/11
5000
为什么说机器学习不是人工智能?
万字长文解读:从Transformer到ChatGPT,通用人工智能曙光初现
ChatGPT掀起的NLP大语言模型热浪,不仅将各家科技巨头和独角兽们推向风口浪尖,在它背后的神经网络也被纷纷热议。但实际上,除了神经网络之外,知识图谱在AI的发展历程中也被寄予厚望。自然语言处理是如何伴随人工智能各个流派不断发展、沉淀,直至爆发的?本文作者将带来他的思考。 作者 | 王文广 出品 | 新程序员 自ChatGPT推出以来,不仅业内津津乐道并纷纷赞叹自然语言处理(Natural Language Processing, NLP)大模型的魔力,更有探讨通用人工智能(Artificial gene
AI科技大本营
2023/04/14
6460
万字长文解读:从Transformer到ChatGPT,通用人工智能曙光初现
清华唐杰教授:认知图谱是人工智能的下一个瑰宝(PPT下载)
导读:近日,清华大学计算机系教授、系副主任,智谱·AI 首席科学家唐杰在 MEET 2021 智能未来大会上作了题为《认知图谱——人工智能的下一个瑰宝》的精彩演讲。
肉眼品世界
2021/01/06
9830
传统预训练正走向终结,推理优化与后训练提升有限,大模型今后如何突破发展瓶颈?
当前(多模态)大模型正深陷「数据饥渴」困境:其性能高度依赖预训练阶段大量高质量(图文对齐)数据的支撑。然而,现实世界中这类高价值数据资源正在迅速耗尽,传统依赖真实数据驱动模型能力增长的路径已难以为继。
机器之心
2025/04/13
1110
传统预训练正走向终结,推理优化与后训练提升有限,大模型今后如何突破发展瓶颈?
Sonnet3.7: 推理大模型的挑战与前景(图文版)
在人工智能快速发展的今天,DeepSeek R1和OpenAI o3等推理大模型展现出令人瞩目的潜力,同时也面临着独特的挑战。本文深入探讨这些模型在落地应用中的现状、困境及未来发展方向,特别聚焦于推理机制、工具调用以及知识整合等关键维度。
立委
2025/03/20
1650
Meta、斯坦福等:AI的下一个前沿,正是陶哲轩说的形式化数学推理
对 AI 研究者来说,数学既是一类难题,也是一个标杆,能够成为衡量 AI 技术的发展重要尺度。近段时间,随着 AI 推理能力的提升,使用 AI 来证明数学问题已经成为一个重要的研究探索方向。著名数学家陶哲轩就是这一方向的推动者,他曾表示:未来数学家可以通过向类似 GPT 的 AI 解释证明,AI 会将其形式化为 Lean 证明。这种助手型 AI 不仅能生成 LaTeX 文件,还能帮助提交论文,从而大幅提高数学家的工作效率和便利性。
机器之心
2025/02/15
1300
Meta、斯坦福等:AI的下一个前沿,正是陶哲轩说的形式化数学推理
《大模型时代-ChatGPT开启通用人工智能浪潮》精华摘抄
Facebook的母公司Meta推出LLaMA,并在博客上免费公开LLM:OPT-175B。
johnny666
2024/09/20
1720
AI智能体2小时击败人类,引爆贝叶斯推理革命!仅用10%数据训练秒杀大模型
最近,Verses团队在AI领域投下了一枚重磅炸弹,他们自研的Genius智能体,创造了一个几乎不可能的奇迹——
新智元
2025/02/15
1510
AI智能体2小时击败人类,引爆贝叶斯推理革命!仅用10%数据训练秒杀大模型
从感知智能跨越到认知智能,NLP领域要做哪些创新?
欢迎大家关注「澜舟科技」公众号,加入孟子开源社区,一起探索 NLP 领域的前沿技术!
澜舟科技
2022/06/14
7950
从感知智能跨越到认知智能,NLP领域要做哪些创新?
达摩院2022十大科技趋势发布:人工智能将催生科研新范式
一个世纪以来,数字科技的演进推动了人类的技术进步与产业发展。我们当前正在经历数字科技最快发展的阶段,数字化、网络化、智能化让数字世界与物理世界的融合与协同更加紧密。
机器之心
2022/01/04
4760
达摩院2022十大科技趋势发布:人工智能将催生科研新范式
Blackwell Ultra GPU未来展望:万亿参数模型训练
随着生成式AI和大语言模型(LLM)的爆发式发展,模型规模已从千亿级迈向万亿级参数时代。这一趋势对算力基础设施提出了前所未有的挑战:如何高效支持超大规模模型的训练与推理?英伟达最新发布的Blackwell架构GPU与微软Azure AI平台的深度融合,为此提供了革命性的解决方案。本文将从Blackwell Ultra GPU的技术革新、Azure AI的生态系统适配、万亿参数模型训练的具体实践,以及未来技术演进的路径展开分析。
Michel_Rolle
2025/01/13
1.1K0
推荐阅读
Sebastian Raschka 新书《从头开始推理》抢先看,揭秘推理模型基础
1310
强推理模型解决组合爆炸问题的关键方法与实践
1570
图说人工智能简史,每一张图片都是一个里程碑
7.7K1
【人工智能】推理大模型与预训练大模型:架构差异与认知范式的技术解构
1500
AI抢攻人类奥赛金牌!DeepMind数学模型做对25道IMO几何题,GPT-4惨败得0分
3520
奥数能力金牌级:DeepMind几何推理模型登上Nature,代码开源,菲尔兹奖得主点赞
2550
【大咖论道】周志华,唐杰教授等专家,站在 2022,展望大模型的未来
6130
几经沉浮,人工智能(AI)前路何方?
1.1K0
当AI开始质疑图灵测试:智能本质的重新定义
1250
为什么说机器学习不是人工智能?
5000
万字长文解读:从Transformer到ChatGPT,通用人工智能曙光初现
6460
清华唐杰教授:认知图谱是人工智能的下一个瑰宝(PPT下载)
9830
传统预训练正走向终结,推理优化与后训练提升有限,大模型今后如何突破发展瓶颈?
1110
Sonnet3.7: 推理大模型的挑战与前景(图文版)
1650
Meta、斯坦福等:AI的下一个前沿,正是陶哲轩说的形式化数学推理
1300
《大模型时代-ChatGPT开启通用人工智能浪潮》精华摘抄
1720
AI智能体2小时击败人类,引爆贝叶斯推理革命!仅用10%数据训练秒杀大模型
1510
从感知智能跨越到认知智能,NLP领域要做哪些创新?
7950
达摩院2022十大科技趋势发布:人工智能将催生科研新范式
4760
Blackwell Ultra GPU未来展望:万亿参数模型训练
1.1K0
相关推荐
Sebastian Raschka 新书《从头开始推理》抢先看,揭秘推理模型基础
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档