人工智能语音技术逐渐在人类生活中普及,AI技术得到越来越多人的关注。那么如何使用人工智能合成人声?
第一个是语音库的制作过程,第二个是使用语音库将文本变成音频的过程。
语音库的制作首先需要收集对方的需求,确定音色、风格、使用领域、产品特性、角色要求;然后找到配音员试音,根据需求设计试音文本,收集录音,通过实验分析确定发音人是否合适做音库;然后确认实验效果是否能接受;最后投入音库生产线,录音脚本设计、录音资源训练、效果优化。
理论上只要能从文本上分析出情感,就可以实现,但目前还没有解决,顶多可以由人工实现标注出情感标签来实现。语音合成擅长产出风格一致的语音(同一发音人),而缺少变化。正因如此,李易老师、任志宏老师、李立宏老师这些具备个人特色但又极其规范的发音方式,最容易获得跟其本人发音接近的合成效果,而表现力丰富的情况则不易。想象着一部动画片全部由TTS自动配音,是根本无法看的,也就看个故事,无法做到身临其境。
说白了是数据生成。可以根据文本生成语音,也可以根据语音生成语音,本质上,跟用一张图像生成另外一张图像(如生成表情,卡通生成真实图像,真实图像生成卡通等等)没有重大区别。
定义一个ground true,让生成的数据跟这个比较,使其最接近。反正所有的机器学习原理都是这个。