大家好,又见面了,我是你们的朋友全栈君。
语音相关基础知识点:
基于深度学习的研究框架:
区分说话主要是通过音高(基频)和音色(频谱包络-频谱最大幅度的连接线) 音高:http://ibillxia.github.io/blog/2013/05/16/audio-signal-processing-time-domain-pitch-python-realization/ 音色:http://ibillxia.github.io/blog/2013/05/18/audio-signal-processing-time-domain-timbre-python-realization/ 此工具箱通过提取语音的三个特征,然后对其进行修改,从而改变语音的音色等特征,从而转换语音特性 比如:通过调高基频,可以偏女性化,通过改变基频未固定值,可以类似机器人等等 f0 : ndarray F0 contour. 基频等高线 sp : ndarray Spectral envelope. 频谱包络 ap : ndarray Aperiodicity. 非周期性
工具箱主要是用matlab和c语言进行开发,pyworld脚本调用c语言接口
文档:直接参考C语言文档或者查看github源码及其一个demo https://qiita.com/ohtaman/items/84426cee09c2ba4abc22
合成数据集下载: CMU ARCTIC (en)-李开复实验室: http://festvox.org/cmu_arctic/ LJSpeech (en): 2.6G https://keithito.com/LJ-Speech-Dataset/ thchs30: 清华大学30小时的数据集(中文) 6.4G http://www.openslr.org/18/
四种现阶段主要的语音合成系统:
合成语音的评价标准: 声音的好听与难听是一个相对主观的概念,因此合成语音的好坏主要通过找很多测听人员对合成语音进行打MOS(Mean Opinion Score)分;其中MOS的范围是 1-5 分,分别代表 1: Bad, 2: Poor, 3: Fair, 4: Good, 5: Excellent 。MOS打分可以对合成语音的音质,可懂度,相似度,或者其他的分项进行评价,也可以对语音的整体自然度进行评价。
发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/153115.html原文链接:https://javaforall.cn