首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

机器学习会议论文(三)StarGAN-VC实现非并行的语音音色转换

2.The introduction starGAN-VC是将一篇语音方向的论文,在上一篇论文中我们介绍了starGAN的网络结构以及工作原理,以及starGAN是如何实现多域的图像风格迁移,但是starGAN-vc则是进行了领域的融合与迁移,vc是(voice conversion),也就是将图像领域的starGAN放入语音领域,进行语音的音色转换,在图像领域我们实现性别的转换,比如将一张male picture转换为female picture,当然指的是风格迁移。starGAN-VC则是将模型放入语音,将male voice转换为female voice。 3.The related work starGAN与StarGAN-vc的网络模型相似,变化不大,但是图像信号与语音信号的差别比较大,语音信号是典型的时序信号,可以理解为一个一维数组的数据,对于神经网络来说处理运算的是矩阵数据,所以需要对语音信号进行预处理,才能实现网络的可以接受的数据格式 (1)对于语音信号需要进行语音信号的特征提取——梅尔频率倒谱系数(MFCC) MFCC中包涵语音信号的特征,同时以矩阵的形式进行的存储, MFCC:Mel频率倒谱系数的缩写。Mel频率是基于人耳听觉特性提出来的,它与Hz频率成非线性对应关系。Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系,计算得到的Hz频谱特征。

01
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到
    领券