前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >可生成高清视频的Stable Diffusion来了!分辨率提升4倍,超分算法来自腾讯,支持Colab在线试玩

可生成高清视频的Stable Diffusion来了!分辨率提升4倍,超分算法来自腾讯,支持Colab在线试玩

作者头像
量子位
发布于 2022-09-22 02:44:15
发布于 2022-09-22 02:44:15
3.9K0
举报
文章被收录于专栏:量子位量子位
明敏 发自 凹非寺 量子位 | 公众号 QbitAI

免费玩的Stable diffusion,又出新变种了!

古典人像丝滑切换,还都是4倍超分辨率水平,细节也就多了亿点点吧,眉毛发丝都根根分明。

还能从一盘草莓意大利面,丝滑变成一份蓝莓面。

这就是最近在推特上火了Stable Diffusion视频版2.0.

它能够通过Real-ESRGAN进行上采样,让生成画面达到4倍超分。

要知道,之前Stable Diffusion生成的图像如果想要高清,还得自己手动提升分辨率。

现在直接二合一,在谷歌Colab上就能跑!

食用指南

Colab上的操作非常简单,基本上就是傻瓜式按照步骤运行即可。

需要注意的是,过程中要从个人Hugging Face账户中复制token登入。

拉取模型前,记得在Hugging Face上授权,否则会出现403错误。

搞定以上问题后,就能来用Stable Diffusion来生成高清视频了。

生成一段视频需要给出2个提示词,然后设置中间的步数,以及是否需要上采样。

中间步骤越多,生成所需的时间越长;同样上采样也会一定程度上加长生成时间。

还能直接用代码来跑,修改几个简单的参数就能搞定。

除了线上模式外,该模型还支持本地运行,项目已在GitHub上开源。

注意需要额外安装Real-ESRGAN。

超分算法来自腾讯

简单来说,这次Stable Diffusion的变种版本就是把生成的图片,通过超分辨率方法变得高清。

Stable Diffusion的原理,是扩散模型利用去噪自编码器的连续应用,逐步生成图像。

一般所言的扩散,是反复在图像中添加小的、随机的噪声。而扩散模型则与这个过程相反——将噪声生成高清图像。训练的神经网络通常为U-net。

不过因为模型是直接在像素空间运行,导致扩散模型的训练、计算成本十分昂贵。

基于这样的背景下,Stable Diffusion主要分两步进行。

首先,使用编码器将图像x压缩为较低维的潜在空间表示z(x)。

其中上下文(Context)y,即输入的文本提示,用来指导x的去噪。

它与时间步长t一起,以简单连接和交叉两种方式,注入到潜在空间表示中去。

随后在z(x)基础上进行扩散与去噪。换言之, 就是模型并不直接在图像上进行计算,从而减少了训练时间、效果更好。

再来看超分辨率部分。

用到的方法是腾讯ARC实验室此前开发的Real-ESRGAN,被ICCV 2021接收。

它可以更有效地消除低分辩率图像中的振铃和overshoot伪影

面对真实风景图片,能更逼真地恢复细节,比如树枝、岩石、砖块等。

原理方面,研究人员引出了高阶退化过程来模拟出更真实全面的退化,它包含多个重复的经典退化过程,每个又具有不同的退化超参:

下图为Real-ESRGAN进行退化模拟的示意图:

采用的是二阶退化,具体可分为在模糊(blur)、降噪(noise)、resize、JPGE压缩几个方面。

到训练环节,Real-ESRGAN的生成器用的是RRDBNet,还扩展了原始的×4 ESRGAN架构,以执行resize比例因子为×2和×1的超分辨率放大。

想要单独使用这种超分算法也不是问题。

在GitHub上下载该模型的可执行文件,Windows/Linux/MacOS都可以,且不需要CUDA或PyTorch的支持。

下好以后只需在终端执行以下命令即可使用:

./realesrgan-ncnn-vulkan.exe -i input.jpg -o output.png

值得一提的是,Real-ESRGAN的一作Wang Xintao是图像/视频超分辨率领域的知名学者。

他本科毕业于浙江大学本科,香港中文大学博士(师从汤晓鸥),现在是腾讯ARC实验室(深圳应用研究中心)的研究员。

此前曾登顶GitHub热榜的项目GFPGAN也是他的代表作。

One More Thing

前两天,大谷老师也发布了用Stable Diffusion生成了一组少女人像,效果非常奈斯。

顺带让我们都完成了一下“阅女无数”的成就(doge)。

Stable Diffusion还能玩出哪些新花样?你不来试试吗?

Colab试玩: https://colab.research.google.com/github/nateraw/stable-diffusion-videos/blob/main/stable_diffusion_videos.ipynb

GitHub地址: https://github.com/nateraw/stable-diffusion-videos

Hugging Face授权: https://huggingface.co/CompVis/stable-diffusion-v1-4

参考链接: [1]https://twitter.com/_nateraw/status/1569315090314444802 [2]https://www.bilibili.com/video/BV1yd4y1g7Wz?spm_id_from=333.999.0.0

人工智能」、「智能汽车」微信社群邀你加入!

欢迎关注人工智能、智能汽车的小伙伴们加入我们,与AI从业者交流、切磋,不错过最新行业发展&技术进展。

PS. 加好友请务必备注您的姓名-公司-职位哦 ~

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-09-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
包浆网图分分钟变高清,伪影去除、细节恢复更胜前辈AI,下载可玩|腾讯ARC实验室出品
丰色 发自 凹非寺 量子位 报道 | 公众号 QbitAI 下面来欣赏一些高糊图片“整个世界都清晰了”的魔法时刻: 无论是动漫还是真实图像,是不是都清晰还原了? 以上就是由腾讯ARC实验室最新发表的图像超分辨率模型完成的。 与前人工作相比,它可以更有效地消除低分辩率图像中的振铃和overshoot伪影; 面对真实风景图片,能更逼真地恢复细节,比如树枝、岩石、砖块等。 除了上面这些官方的demo,我们也试了一下,效果还比较满意: 如果你也想试试,可在GitHub上下载该模型的可执行文件,Win
量子位
2023/03/01
1.4K0
包浆网图分分钟变高清,伪影去除、细节恢复更胜前辈AI,下载可玩|腾讯ARC实验室出品
B站开源自研动漫超分辨率模型,助力动漫UGC视频高清化
4K/8K内容缺乏始终是超高清视频产业发展的痛点,完善渠道、拍摄制作水平、技术等方面的不足是关键。随着软硬件能力的提升,4K的消费能力大幅提高,为了应对这种情况,需要提高4K的生产能力。除了新拍4K以外,超分4K是一个降低成本很好的途径。最近,B站在上线8K画质的同时,还面向UP主提供了4K超分功能,并为各位UP主直接提供画质升级的功能。
LiveVideoStack
2022/02/11
2.3K0
B站开源自研动漫超分辨率模型,助力动漫UGC视频高清化
CVPR2024 | CoSeR:连接图像与语言实现认知超分辨率
真实世界的图像超分辨率(SR)是图像处理领域的一项基本任务,旨在增强低分辨率(LR)图像,生成对应的高分辨率(HR)图像。尽管近年来该领域取得了重大进展,但复杂现实场景的处理仍然面临着持久的挑战。利用图像先验是解决现实世界SR问题的常用策略,而最近出现的文生图扩散模型显示出基于用户提供的提示生成高质量图像的卓越能力。这些模型不仅具有强大的图像先验,而且能够以语言的形式对人类指令做出精确的反应。这展示了连接低级图像处理和高级抽象认知的可能性。传统的图像超分辨率技术坚持自下而上的方法,主要集中于局部内容和直接像素级处理。这些方法在把握整体图像上下文方面表现出固有的局限性,往往无法恢复严重退化但语义上至关重要的细节。此外,考虑到LR图像的病态性质,有可能引入语义错误的纹理。为了应对这些挑战,有必要为 SR 模型注入“认知”能力。因此,本文提出了一种先进的 SR 方法,称为认知超分辨率(CoSeR),它与人类在图像感知中采用的自上而下的认知过程一致。它从认知嵌入的生成开始,这是一种封装了 LR 图像总体理解的表示,包含场景语义和图像外观。这种认知嵌入能够精确地利用嵌入在预训练的文生图模型中的隐含先验知识,从而以类似于人类专业知识的方式增强恢复图像细节的能力。先前的工作使用分割图来提供语义,然而,获取现实世界LR图像的理想的分割图仍然很困难,且语义分割受限于预先定义的类别,限制了它在开放世界场景中的适用性。除了隐式地利用扩散先验,本文还显式地利用了图像先验。本文提出了一种新的方法,使用来自 LR 输入的认知嵌入,通过扩散模型生成参考图像,并将其用于指导恢复过程。如图1所示,认知嵌入包含了语言理解,同时保留了图像的颜色和纹理信息,从而产生了高质量的参考图像,不仅在语义上对齐,而且在外观上相似。这种显式方法在捕获高清纹理方面带来了实质性的改进。为了同时保证纹理的真实感和保真度,本文引入了一种“All-in-Attention”设计,通过注意机制集成了多个信息源,包括认知嵌入、参考图像和 LR 输入。这种方法允许模型灵活地使用不同的条件组件,从而产生改进的结果。实验表明,与以前的方法相比,本文的模型在生成更复杂的纹理的同时保持了保真度。
用户1324186
2024/04/12
1.1K0
CVPR2024 | CoSeR:连接图像与语言实现认知超分辨率
最接近《银翼杀手》追踪杀人犯的AI?DiffBIR:统一的盲人脸修复和盲图像超分SOTA框架
"这是我们到目前为止最接近《银翼杀手》中的"增强"功能的时刻。"近日,美国金融科技公司 Brex 技术负责人在推特(现更名为:X)上介绍近日火热的 DiffBIR 算法时,如是说道。
OpenMMLab 官方账号
2023/10/23
8790
最接近《银翼杀手》追踪杀人犯的AI?DiffBIR:统一的盲人脸修复和盲图像超分SOTA框架
PASD:像素感知的稳定扩散超分辨率和个性化风格网络
图片在采集过程中经常面临着多重混合退化,例如低分辨率、模糊和噪声等。过去的深度学习模型因为模型设计时对忠实度的要求常常会给出过度平滑的结果。基于GAN的算法广泛应用于超分任务中,但是基于GAN的方法常常会产生伪影,无法生成丰富逼真的图像细节。DDPM在图像生成、图像转译领域取得了出色的成果,是GAN的有力替代品。基于DDPM/DDIM的文生图、文生视频先验被广泛应用于下游任务中。预训练的文生图稳定扩散模型能生成高分辨率高质量的自然图片,ControlNet使多类型的条件控制被应用到稳定扩散先验中。但是ControlNet不适用于像素感知的任务,直接使用会产生不一致的结果。也有一些基于Controlnet的超分辨率算法,但它们需要跳跃连接来提供像素级的信息,需要额外的训练。
用户1324186
2023/11/28
1.1K0
PASD:像素感知的稳定扩散超分辨率和个性化风格网络
超分辨率开源库 GitHub 热门项目分享
随着图像和视频数据量的急剧增加,以及人们对高质量图像需求的不断提升,超分辨率技术也在不断发展,以满足实际应用的需求。本文将分享一些相关的开源库和数据集,希望能够帮助该领域的研究人员推进研究和应用。
CV君
2024/06/27
1.7K0
超分辨率开源库 GitHub 热门项目分享
Real-ESRGAN:腾讯推出的开源图像分辨率提升模型
我们在 ESRGAN 的基础上使用纯合成的数据来进行训练,以使其能被应用于实际的图片修复的场景(顾名思义:Real-ESRGAN)。
疯狂的KK
2024/01/30
5.1K0
Real-ESRGAN:腾讯推出的开源图像分辨率提升模型
DiffBIR:用生成式扩散先验实现盲图像恢复
图像恢复的目的是从低质量的观测中重建出高质量的图像。典型的图像恢复问题,如图像去噪、去模糊和超分辨率,通常是在受限的环境下定义的,其中退化过程是简单和已知的(例如,高斯噪声和双三次降采样)。为了处理现实世界中退化的图像,盲图像恢复(BIR)成为一个很有前途的方向。BIR的最终目标是在具有一般退化的一般图像上实现真实的图像重建。BIR不仅扩展了经典图像恢复任务的边界,而且具有广泛的实际应用领域。BIR的研究还处于初级阶段。根据问题设置的不同,现有的BIR方法大致可以分为三个研究方向,即盲图像超分辨率(BSR)、零次图像恢复(ZIR)和盲人脸恢复(BFR)。它们都取得了显著的进步,但也有明显的局限性。BSR最初是为了解决现实世界的超分辨率问题而提出的,其中低分辨率图像包含未知的退化。根据最近的BSR调查,最流行的解决方案可能是BSRGAN和Real-ESRGAN。它们将BSR表述为一个有监督的大规模退化过拟合问题。为了模拟真实的退化,分别提出了退化洗牌策略和高阶退化建模,并用对抗性损失来以端到端方式学习重建过程。它们确实消除了一般图像上的大多数退化,但不能生成真实的细节。此外,它们的退化设置仅限于×4或者×8超分辨率,这对于BIR问题来说是不完整的。第二组ZIR是一个新出现的方向。代表有DDRM、DDNM、GDP。它们将强大的扩散模型作为附加先验,因此比基于GAN的方法具有更大的生成能力。通过适当的退化假设,它们可以在经典图像恢复任务中实现令人印象深刻的零次恢复。但是,ZIR的问题设置与BIR不一致。他们的方法只能处理明确定义的退化(线性或非线性),但不能很好地推广到未知的退化。第三类是BFR,主要研究人脸修复。最先进的方法可以参考CodeFormer和VQFR。它们具有与BSR方法相似的求解方法,但在退化模型和生成网络上有所不同。由于图像空间较小,这些方法可以利用VQGAN和Transformer在真实世界的人脸图像上取得令人惊讶的好结果。然而,BFR只是BIR的一个子域。它通常假设输入大小固定,图像空间有限,不能应用于一般图像。由以上分析可知,现有的BIR方法无法在一般图像上实现一般退化的同时实现真实图像的重建。因此需要一种新的BIR方法来克服这些限制。本文提出了DiffBIR,将以往工作的优点整合到一个统一的框架中。具体来说,DiffBIR(1)采用了一种扩展的退化模型,可以推广到现实世界的退化;(2)利用训练良好的Stable Diffusion作为先验来提高生成能力;(3)引入了一个两阶段的求解方法来保证真实性和保真度。本文也做了专门的设计来实现这些策略。首先,为了提高泛化能力,本文将BSR的多种退化类型和BFR的广泛退化范围结合起来,建立了一个更实用的退化模型。这有助于DiffBIR处理各种极端退化情况。其次,为了利用Stable Diffusion,本文引入了一个注入调制子网络-LAControlnet,可以针对特定任务进行优化。与ZIR类似,预训练的Stable Diffusion在微调期间是固定的,以保持其生成能力。第三,为了实现忠实和逼真的图像重建,本文首先应用恢复模块(即SwinIR)来减少大多数退化,然后微调生成模块(即LAControlnet)来生成新的纹理。如果没有这个部分,模型可能会产生过度平滑的结果(删除生成模块)或生成错误的细节(删除恢复模块)。此外,为了满足用户多样化的需求,本文进一步提出了一个可控模块,可以实现第一阶段的恢复结果和第二阶段的生成结果之间的连续过渡效果。这是通过在去噪过程中引入潜在图像引导而无需重新训练来实现的。适用于潜在图像距离的梯度尺度可以调整以权衡真实感和保真度。在使用了上述方法后,DiffBIR在合成和现实数据集上的BSR和BFR任务中都表现出优异的性能。值得注意的是,DiffBIR在一般图像恢复方面实现了很大的性能飞跃,优于现有的BSR和BFR方法(如BSRGAN、Real-ESRGAN、CodeFormer等)。可以观察到这些方法在某些方面的差异。对于复杂的纹理,BSR方法往往会产生不真实的细节,而DiffBIR方法可以产生视觉上令人愉悦的结果。对于语义区域,BSR方法倾向于实现过度平滑的效果,而DiffBIR可以重建语义细节。对于微小的条纹,BSR方法倾向于删除这些细节,而DiffBIR方法仍然可以增强它们的结构。此外,DiffBIR能够处理极端的退化并重新生成逼真而生动的语义内容。这些都表明DiffBIR成功地打破了现有BSR方法的瓶颈。对于盲人脸恢复,DiffBIR在处理一些困难的情况下表现出优势,例如在被其他物体遮挡的面部区域保持良好的保真度,在面部区域之外成功恢复。综上所述,DiffBIR首次能够在统一的框架内获得具有竞争力的BSR和BFR任务性能。广泛而深入的实验证明了DiffBIR优于现有的最先进的BSR和BFR方法。
用户1324186
2024/02/21
1.2K0
DiffBIR:用生成式扩散先验实现盲图像恢复
用 Real-ESRGAN 拯救座机画质,自制高清版动漫资源
本文约1200字,建议阅读8分钟Real-ESRGAN 是 ESRGAN 升级之作,主要有三点创新:提出高阶退化过程模拟实际图像退化,使用光谱归一化 U-Net 鉴别器增加鉴别器的能力,以及使用纯合成数据进行训练。 相比于如今画面优良精美的新番,老动漫因时代的技术和设备限制,画质较差、分辨率低。但那些内容优质、童年经典的老动漫还是会被观众拿出来反复观看、「盘出包浆」。 每每经典的动漫视频被 4K 修复,在视频网站上的观看量都居高不下,高画质加上经典的内容足以让「双厨狂喜」。 B 站上的 4K 修复视频极受
数据派THU
2023/03/29
4630
用 Real-ESRGAN 拯救座机画质,自制高清版动漫资源
图像超分——Real-ESRGAN快速上手
想必每个自媒体行业从业者都面临过这样一种情况:从网络上找到一张素材做封面,然而素材图片往往太模糊。那么,有没有办法对其进行高清修复呢?这就是计算机视觉领域的子领域图像超分所研究的主要问题。
zstar
2022/09/19
3.7K0
ECCV 2022 | 可调节的真实场景图像超分辨率, 腾讯ARC Lab利用度量学习来解决
机器之心专栏 作者:Chong Mou 来自腾讯 ARC Lab 的研究者们提出利用无监督的度量学习, 来训练现实场景下可调节的图像超分辨率任务。 现实世界超分辨率 (Real-world super-resolution) 是指从包含真实退化的低分辨率图像中复原得到高分辨率的图像. 可调节的现实世界图像超分辨率是一个很有挑战的任务, 因为降质 (degradation) 过程复杂且未知,可调节的交互机制很难通过有监督的训练来完成。 对于可调节的图像超分辨率, 之前的工作主要在经典退化的仿真数据上进行研究
机器之心
2022/09/13
7040
ECCV 2022 | 可调节的真实场景图像超分辨率, 腾讯ARC Lab利用度量学习来解决
Stable Diffusion的入门介绍和使用教程
Stable Diffusion是一个文本到图像的潜在扩散模型,由CompVis、Stability AI和LAION的研究人员和工程师创建。它使用来自LAION-5B数据库子集的512x512图像进行训练。使用这个模型,可以生成包括人脸在内的任何图像,因为有开源的预训练模型,所以我们也可以在自己的机器上运行它,如下图所示。
deephub
2023/01/18
7.2K0
【腾讯云AI绘画】 ——通过高性能应用服务HAI搭建Stable Diffusion——生成上学时期初恋的她
很幸运的能看到这个活动,并且通过22个任务的学习对Stable Diffusion的理论有了一定深入的理解,学到任务23发现开始真正的实操了,那么说到实操就必须留下整个学习的过程,所以有了此篇文章,希望能给大家带来一定的价值。
红目香薰
2023/12/19
80737
【腾讯云AI绘画】 ——通过高性能应用服务HAI搭建Stable Diffusion——生成上学时期初恋的她
GPU4090 助力方案 | 用潜在图像扩散模型解决高分辨率视频逆问题 !
扩散模型已经在生成建模领域确立了新的基准,能够生成高质量的样本。这些模型已成为各个领域发展的基石,例如可控图像编辑[34]、图像个性化[8]、合成数据增强[24],甚至从脑信号重建图像[14, 25]。
AIGC 先锋科技
2025/01/17
2520
GPU4090 助力方案 | 用潜在图像扩散模型解决高分辨率视频逆问题 !
超分辨率专题 | 3 种方法、4 个教程、10 个数据集,一文 Get 核心知识点
超分辨率能够克服或补偿由于图像采集系统、采集环境本身限制而导致的成像模糊、图像质量低下等问题,提升图像分辨率,为特征提取、信息识别等图像的后续处理提供重要支持。
HyperAI超神经
2024/05/13
4.2K0
超分辨率专题 | 3 种方法、4 个教程、10 个数据集,一文 Get 核心知识点
腾讯图像超分辨率算法RealSR,开源了
近日,腾讯优图实验室提出一种新的图像超分辨率算法RealSR并开源。该算法在CVPR-NTIRE-2020真实图像超分比赛中以明显优势获得双赛道冠军。 赛事介绍 在2020年的NTIRE真实图像超分比赛中,腾讯优图团队参加Image Processing artifacts及Smartphone Images两个Track均以明显优势获得第一名。NTIRE比赛是图像增强领域的权威赛事(https://data.vision.ee.ethz.ch/cvl/ntire20/),由ETH Zurich(苏黎世
腾讯开源
2020/09/03
3.1K0
Stable Diffusion WebUI详细使用指南
Stable Diffusion WebUI(AUTOMATIC1111,简称A1111)是一个为高级用户设计的图形用户界面(GUI),它提供了丰富的功能和灵活性,以满足复杂和高级的图像生成需求。由于其强大的功能和社区的活跃参与,A1111成为了Stable Diffusion模型事实上的标准GUI,并且是新功能和实验性工具的首选发布平台。
程序那些事
2024/05/29
3.9K0
Stable Diffusion WebUI详细使用指南
Stable Diffusion WebUI详细使用指南
这个就不多讲了,大家登上github,拷贝下来直接启动就行了。但是确保你有大于8G的显存,否则在使用中会非常慢,并且可能会出现某些功能无法使用的问题。
程序那些事
2024/06/04
7200
Stable Diffusion WebUI详细使用指南
Stable Diffusion 保姆级培训课程
Stable Diffusion是一种潜在扩散模型(Latent Diffusion Model),能够从文本描述中生成详细的图像。它还可以用于图像修复、图像绘制、文本到图像和图像到图像等任务。简单地说,我们只要给出想要的图片的文字描述在提Stable Diffusion就能生成符合你要求的逼真的图像!
曾高飞
2025/06/13
1420
Real-ESRGAN超分辨网络
研究背景:虽然盲超分辨率技术已经在恢复具有未知和复杂退化的低分辨率图像方面进行了许多尝试,但它们仍然远远不能解决一般真实世界的退化图像。
JOYCE_Leo16
2024/03/19
5250
Real-ESRGAN超分辨网络
推荐阅读
相关推荐
包浆网图分分钟变高清,伪影去除、细节恢复更胜前辈AI,下载可玩|腾讯ARC实验室出品
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档