前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >CVPR 2024丨基于文本可控的图生视频扩散模型

CVPR 2024丨基于文本可控的图生视频扩散模型

作者头像
OpenMMLab 官方账号
发布2024-06-27 15:39:25
560
发布2024-06-27 15:39:25
举报
文章被收录于专栏:OpenMMLabOpenMMLab
近期视频生成模型 Sora 与 Dream Machine 的火爆,相信你已跃跃欲试,想要生成自己的视频。本文介绍一个开源免费的个性化视频生成模型—PIA(Personalized Image Animator),还有在线应用等你来体验!

论文:

https://arxiv.org/abs/2312.13964

代码:(文末点击阅读原文可直达,欢迎 star)

https://github.com/open-mmlab/PIA

网站:

https://pi-animator.github.io/

在线应用:

https://openxlab.org.cn/apps/detail/zhangyiming/PiaPia

个性化生成技术已经能够让我们可以生成自定义的内容、风格的图像,我们进一步希望给这些生成的精美的个性化图像加上动态。然而这一目标存在两大难点,第一,生成的视频难以还原用户输入图像的细节;第二,生成的视频无法按照用户需要用文本提示词精确控制。

针对这两大难点,PIA 应运而生,PIA 能够还原图像细节、高度响应提示词内容的视频。

方法简介

PIA(Personalized Image Animator)是文本驱动的个性化图生视频模型,它可被插入不同的文生图底模中以生成不同风格、内容的视频。

框架图如下,用户输入的图像会与帧间相似度结合通过条件模块,接着在 UNet 中参与 Cross-Attention 计算以实现根据文本为输入图像添加动效。

它的核心是条件模块与帧间相似度(图中黄色部分),借助这样的设计,PIA 可以生成还原图像细节、高度响应提示词内容的视频。

应用介绍

文本控制动效生成

PIA 可以为你制作你喜欢的人物的表情包。通过不同的文本提示词,可以为人物添加不同的表情、动效。

动效幅度控制

PIA 可以控制生成视频中动效的幅度。通过帧间相似度的设计,可以实现不同幅度动效的生成。

风格迁移

PIA 还能够为你的图像生成不同风格的视频。PIA 可以适应各种风格的底模型,将模型风格迁移到生成的视频中。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 OpenMMLab 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档