随着AI不断的发展,最近关于“AI复活逝者”的相关新闻上了热搜。像是商汤利用这些技术,成功复活了汤晓鸥老师。
它以数字人的形式,出现在了商汤的年会上,并成功复刻出汤老师的表情和语气,用其幽默的语言,来了一场“跨越时空”的脱口秀表演。
另一方面,AI复活技术本质上能够让在世的人看到已经逝去的亲人,让他们对亲人的思念得到寄托。
这让我回想起了“流浪地球2”中,图恒宇一直想复活他车祸去世的女儿,何尝不是对女儿的不断思念所造成的执念。
特别是有孩子的之后,才会慢慢理解电影中“图恒宇”做法:
由于有人有这个需求,这就慢慢催生出了“AI复活”这一产业。但是目前AI复活产业还是不完善,社会相关法律还没有出台,这个产业目前还是鱼龙混杂。
在淘宝上,AI复活最便宜的几十块钱,贵的则去到上千元不等。但其实这些技术本质上我们是可以自己实现的,而且不需要任何钱就可以。
AI复活其实就是三个步骤:
克隆逝者的声音:本教程手把手教你如何简单的克隆一个人的声音
克隆逝者的说话方式:这个本质上可以使用大量需要克隆的人物语言,让大模型去学习。其实就可以利用ChatGPT这类的大模型去模仿说话方式
对齐口型:利用逝者的照片,让AI对齐口型,让图片开口说话。
先来看看最终生成的效果:
下面就是具体的生成步骤
免费白嫖AI声音克隆
这里可以直接打开我准备好的Colab页面,里面已经包含了需要运行的代码和要下载的模型:
代码:
https://colab.research.google.com/drive/1CXdG3bvoZt7fSVuUaG41aWpn1SUkVjJu?usp=sharing
执行所有代码运行后
会生成一个可以打开的网页:
1
分离背景音和人声
在生成的网页中,勾选“Open UVR5-WebUI”按钮
回到刚才的控制台界面,最下面会出现新的网站,点击他进入UVR5 WebUI
这里有三个步骤需要说明一下:
上传音频文件:最好选择1分钟以上的wav格式音频,这里我直接从b站上找了”蔡徐坤“的音频进行上传
选择模型:可以先无脑选择HP2
点击生成
最后生成的音频中,已经把背景音和人声进行了分离,然后把”instrument“文件删除掉:
切割音频并校准
得到人声音频后,需要对人声进行相应的校准。
1
声音切割
复制输入原音频的文件夹(不要有中文),如果刚刚经过了UVR5处理那么就是uvr5_opt这个文件夹。粘贴这个文件夹
生成的声音切割样本
2
音频打标
为什么要打标:打标就是给每个音频配上文字,这样才能让AI学习到每个字该怎么读。这里的标指的是标注
按上面步骤,就生成”list“结尾的文件,这个文件本质就是包含每段音频对应的文字:
开启声音训练
按照下面图片进行相应的步骤:
选择”1-GPT-SOVITS-TTS“选项卡
需要实验名称,这里可以随意起名字,我取了”caixukun“,主要不要用中文名字就可以
把上面生成的list文件填入
把对应的音频文件路径”slicer_opt“填入
最后点击下图的按钮,进行声音格式化:
1
微调训练
上面的所有步骤本质上就是把音频处理成合适的模型输入格式,到这一步就可以开始进行训练了。
所有参数基本默认就可以了,然后开始SoVITS模型训练,训练完成后,接着开启GPT训练。
训练完成后,可以看到目录下生成的两个模型文件,这时候可以下载到本地中,下次想用就不需要重新训练了:
2
模型生成新的语言文本
得到模型之后,怎么利用AI克隆的声音讲出新的语言呢?这里就需要进行模型推理。
先开启推理界面,其中两个模型的文件需要选择你刚刚生成的(如果看不到模型可以刷新一下),然后点击”Open TTS inference WEBUI“
打开之后就可以来到最后一步了:
上传模仿的语气文件:这一步主要是为了控制生成声音的语气和语速,可以上传自己最开始的音频文件
填写目标文本:就是让AI说的话
点击生成后,可以看到音频的生成,最后来看看我生成的效果,已经接近真人的声音了:
结合图片进行开口说话
这一步就比较简单了,可以直接利用免费的软件“SadTalker”让图片动起来,同时对齐上面生成的音频。
这个软件有打包的版本,可以直接下载:
解压完成后,点击“WEBUI运行.bat”,然后打开网页界面:
生成的步骤简单总结为三步:
上传需要开口说话的图片
点击生成
最后来看一下我生成的效果:
总结
其实“AI复活”的技术并不复杂,普通人根据上面我的步骤就可以自己简单实现一个,其主要用到的就是声音克隆技术和图片动图技术。
感兴趣的读者可以尝试一下,只要使用过几次,其实很容易就上手了。但是这里也不建议,花太多的时间精力和超出自己承受能力的金钱,在去世的人身上,多关注身边的人,让自己走出阴霾,这样才显科技的温度。
领取专属 10元无门槛券
私享最新 技术干货