前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >PaddleHub元宇宙直通车:手把手教你造个虚拟数字人

PaddleHub元宇宙直通车:手把手教你造个虚拟数字人

作者头像
用户1386409
发布于 2022-01-17 08:47:08
发布于 2022-01-17 08:47:08
2K0
举报
文章被收录于专栏:PaddlePaddlePaddlePaddle

元宇宙时代已经来临,当你看到网络新闻上形形色色的虚拟人的时候,是不是有些心动?你是否认为创造虚拟人需要很大的学习成本和技术投入,普通开发者单枪匹马根本无法办得到?现在这些都不再是问题,飞桨预训练模型应用工具PaddleHub助你快速实现!

文章指路:

</2021><2022>今天,陪我一起过节吧!

相信大家都接收到前几天这个虚拟数字人给大家的新年祝福了,今天给大家做一个技术详细揭秘。

背后支持虚拟数字人的“神秘力量”,其实是飞桨强大的开源生态和AI能力。

飞桨语音模型库PaddleSpeech将文字转换成语音,让虚拟数字人有了自己的声音。飞桨生成对抗网络开发套件PaddleGAN的人脸生成能力赋予了虚拟数字人一张可爱的脸蛋,表情迁移、唇形合成(同步)等模型驱动虚拟数字人的脸部活动,让虚拟人更加栩栩如生。

目前PaddleHub已经把以上模型纳入了模型库当中,现在只需要通过简单的十几行代码调用模型,输入图片和文字,即可生成一个生动形象的虚拟数字人。

技术原理

生成虚拟数字人总共需要调用三个模型,分别是First Order Motion(表情迁移)、Text to Speech(文本转语音)和Wav2Lip(唇形合成)。

实现步骤

1.把图像放入First Order Motion模型实现面部表情迁移,让虚拟主播的表情更加逼近真人。

  • 依赖安装
  • 图像准备

首先需要准备一张带背景和人脸的二维静态图像,如图所示。

  • 表情迁移

通过FOM模型,输入图像和驱动视频,让人像动起来。

2.输入你想让数字人说的话,通过Text to Speech模型,将输入的文字转换成音频输出。

3.得到面部表情迁移的视频和音频之后,将音频文件和动态视频输入到Wav2Lip模型,并根据音频内容调整唇形,让唇形根据说话的内容动态改变,使得虚拟人更加接近真人效果。

经过上面的三个步骤,一个虚拟数字人的视频就生成了。

高阶玩法

PaddleBoBo是飞桨社区开发者基于飞桨框架和PaddleSpeech、PaddleGAN等开发套件的虚拟主播快速生成项目。除了可以实现以上功能之外,同时还支持调整语速、音高等,更可以经过简单的二次开发,实现实时新闻生成、直播播报等。

Github:

https://github.com/JiehangXie/PaddleBoBo

同时也欢迎感兴趣的大佬加入,共同打造飞桨元宇宙!

虚拟数字人的实现离不开飞桨开源生态的努力,希望大家给下面优秀的开源项目点star⭐ ⭐ PaddleGAN:

https://github.com/PaddlePaddle/PaddleGAN ⭐ PaddleSpeech:

https://github.com/PaddlePaddle/PaddleSpeech ⭐ PaddleHub:

https://github.com/PaddlePaddle/PaddleHub

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-01-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 PaddlePaddle 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
情人节这天,idol居然对我「说情话」!?
情人节将至,当其他人还在苦思冥想如何准备情人节礼物时,我却已经收到了我最喜欢的idol说给我的情话视频~不仅如此,我还用自己的照片说出了亲爱的ta最喜欢的告白台词,究竟是什么技术让我能够在这个情人节脱颖而出?
用户1386409
2021/03/09
6430
情人节这天,idol居然对我「说情话」!?
AI数字人:AI数字人制作初探及相关开源简介
数字人这名字听着稀奇又别扭,其实它最初的原型大家都听过——NPC。玩过游戏的应该都知道,也就是游戏内玩家操纵的游戏角色,可以和玩家进行交互的角色。广义上讲可以说是计算机模拟出的具有人的形态的虚拟人都叫做数字人,在平常的观感上,数字人是整合了人物形象模拟、人物声音克隆、自然语言处理、知识图谱解析等众多世界领先的人工智能技术的可视化数字虚拟人。他通过对人物形象的复制模拟,人物声音的克隆及语音合成,可随时随地与真人进行准确交互性对话。
Freedom123
2024/03/29
8161
AI数字人:AI数字人制作初探及相关开源简介
2D虚拟数字人如何实现人物表达
首先我们了解到虚拟数字人根据人物图形资源的维度,数字人可以分为2D和3D两大类。2D数字人从外形上可以分为2D真人和2D卡通。
产品言语
2023/09/09
1.8K0
2D虚拟数字人如何实现人物表达
全新开源!业界首个声纹识别与音频检索系统,10分钟搭建产业级应用
飞桨语音模型库PaddleSpeech,为开发者提供了语音识别、语音合成、声纹识别、声音分类等多种语音交互能力,代码全部开源,各类服务一键部署,并附带保姆级教学文档,让开发者轻松搞定产业级应用!
用户1386409
2022/04/19
2.7K0
全新开源!业界首个声纹识别与音频检索系统,10分钟搭建产业级应用
PaddleGAN快速让你的照片动起来
本项目基于PaddleGAN实现的FirstOrder与Wav2lip,。FirstOrder是输入一个模板视频与一张照片,就可以使照片里面的人物唱出模板视频里的歌曲,前段时间很火的 「蚂蚁呀嘿」就是用这个方法做的;还有另一个方法就是使用Wav2lip,输入照片和音频就可以直接让照片根据音频的内容动起来。
机器学习AI算法工程
2024/01/19
2020
PaddleGAN快速让你的照片动起来
解放原画师!Wav2Lip 用 AI 听音同步人物口型
内容提要:「眼见为实」在 AI 技术面前已经失效了,换脸、对口型的技术层出不穷,效果越来越逼真。今天要介绍的 Wav2Lip 模型,只需一段原始视频与目标音频,就可将其合二为一。
HyperAI超神经
2020/12/24
2.4K0
GitHub 3.1K,业界首个流式语音合成系统开源!
智能语音技术已经在生活中随处可见,常见的智能应用助手、语音播报、近年来火热的虚拟数字人,这些都有着智能语音技术的身影。智能语音是由语音识别,语音合成,自然语言处理等诸多技术组成的综合型技术,对开发者要求高,一直是企业应用的难点。 飞桨语音模型库 PaddleSpeech ,为开发者提供了语音识别、语音合成、声纹识别、声音分类等多种语音处理能力,代码全部开源,各类服务一键部署,并附带保姆级教学文档,让开发者轻松搞定产业级应用! PaddleSpeech 自开源以来,就受到了开发者们的广泛关注,关注度持续上涨。
机器学习AI算法工程
2022/05/25
6.3K0
GitHub 3.1K,业界首个流式语音合成系统开源!
穿越时空的互动,GitHub神器让照片「动」起来!
近期,《长津湖》电影将大家带回了抗美援朝那年,当画面一帧帧浮现在眼前时,让人忍不住追忆过去、思念故人… 长津湖战役中,中国解放军奋勇杀敌的画面,实在是赚足了小编的眼泪ಥ_ಥ 战乱夺走了多少条生命,拆散了多少个家庭?让我们向中国军人致敬!!!
HelloGitHub
2021/11/12
3.7K0
《探索形象克隆:科技与未来的奇妙融合》
具体来说,通过深度学习和生成对抗网络等先进技术,收集大量数据进行训练,从而实现对真实人类的模拟。例如,在语音克隆方面,可将文字序列转换成音韵序列生成相似语音。如腾讯智影,用户上传一些音、视频后,可生成自己的数字人形象(外形和音色),还能用于 “逼真” 的文字播报。其中声音克隆是在线录制一段真人语音,经 “腾讯智影” AI 训练后可以得到与本人音色一致的声音模型。克隆好的声音模型,音色、语调、语言习惯可以与真人本人高度一致,届时只需要输入文字即可生成对应音频。
正在走向自律
2024/12/18
1820
《探索形象克隆:科技与未来的奇妙融合》
深度学习框架
深度学习(deep learning)是机器学习的分支,已经在工业生产、科学研究等领域有广泛应用。图 1-1-1 显示了深度学习、机器学习和人工智能之间的相对关系。
老齐
2022/12/09
8040
深度学习框架
七夕新浪漫,让AI黑科技带你们提前看看爱情的结晶
今天小编给大家介绍一个AI黑科技,能够完美融合任意两张人脸,并带有丰富的表情,让你不仅凡尔赛地炫个技,还能巧妙风趣地表个白:我觉得咱俩挺合适,可以一起为人类向更美的方向进化作出杰出贡献。
CV君
2021/09/03
3590
GitHub 热榜:被网友疯狂恶搞的「蚂蚁呀嘿」项目终于开源了!
最近,小伙伴们的朋友圈、某音、某手、某博是不是都被魔性的「蚂蚁呀嘿」换脸视频刷屏了?!!甚至有网友纷纷吐槽:「这几天就仿佛捅了蚂蚁窝…」
架构师修炼
2021/03/22
7920
GitHub 热榜:被网友疯狂恶搞的「蚂蚁呀嘿」项目终于开源了!
史上最全解读 | 飞桨模型库重大升级,主流算法模型全覆盖
11 月 5 日,在 Wave Summit+2019 深度学习开发者峰会上,飞桨全新发布和重要升级了最新的 21 项进展,在深度学习开发者社区引起了巨大的反响。
用户1386409
2019/11/18
8970
只有一个源视频的Deepfakes简介[通俗易懂]
Deepfakes 是人工智能生成的任何人或名人的合成视频,它冒充真实的人,并让他们采取行动或说出他们从未做过的任何事情。
全栈程序员站长
2022/09/01
1.6K0
只有一个源视频的Deepfakes简介[通俗易懂]
声音好听,颜值能打,基于PaddleGAN给人工智能AI语音模型配上动态画面(Python3.10)
    借助So-vits我们可以自己训练五花八门的音色模型,然后复刻想要欣赏的任意歌曲,实现点歌自由,但有时候却又总觉得少了点什么,没错,缺少了画面,只闻其声,却不见其人,本次我们让AI川普的歌声和他伟岸的形象同时出现,基于PaddleGAN构建“靓声靓影”的“懂王”。
用户9127725
2023/05/19
6540
声音好听,颜值能打,基于PaddleGAN给人工智能AI语音模型配上动态画面(Python3.10)
语音识别系列︱paddlehub的开源语音识别模型测试(二)
这一篇开始主要是开源模型的测试,百度paddle有两个模块,paddlehub / paddlespeech都有语音识别模型,这边会拆分两篇来说。 整体感觉,准确度不佳,而且语音识别这块的使用文档写的缺胳膊少腿的; 使用者需要留心各类安装问题。
悟乙己
2022/10/08
7.4K0
语音识别系列︱paddlehub的开源语音识别模型测试(二)
paddle 1-高级
在前面章节中,我们首先学习了神经网络模型的基本知识和使用飞桨编写深度学习模型的方法,再学习了计算机视觉、自然语言处理和推荐系统的模型实现方法。
zhangjiqun
2024/12/14
1200
paddle 1-高级
基于 Wav2Lip-GFPGAN 深度学习模型 数字人Demo
对每个人而言,真正的职责只有一个:找到自我。然后在心中坚守其一生,全心全意,永不停息。所有其它的路都是不完整的,是人的逃避方式,是对大众理想的懦弱回归,是随波逐流,是对内心的恐惧 ——赫尔曼·黑塞《德米安》
山河已无恙
2023/08/21
1.6K0
基于 Wav2Lip-GFPGAN 深度学习模型 数字人Demo
穿越时空的深情注视!让老照片“动”起来!
过去的点点滴滴组成了今天的我们,有一些分离不小心成了永别,老照片承载了一个普通人沉甸甸的过去和回忆。但是随着岁月流逝,老照片逐渐老化腐蚀,珍贵的记忆就要随之离去。
用户1386409
2021/03/26
1.1K0
穿越时空的深情注视!让老照片“动”起来!
语音识别系列︱paddlespeech的开源语音识别模型测试(三)
参考: 语音识别系列︱用python进行音频解析(一) 语音识别系列︱paddlehub的开源语音识别模型测试(二)
悟乙己
2022/10/08
9.1K0
推荐阅读
相关推荐
情人节这天,idol居然对我「说情话」!?
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档