问题如下:
1. 接口限频是不是只针对创会API?
2. 总限频次数,是针对企业版;还是针对自建应用,换另一个自建应用总限频次数刷新?
3. 会议创建之后,没有真正开会,是否会占用总限频次数?
4. 这个 调用频率限额 是 api下根据账号算的 总限额,还是分到各自高级账号上独立计算的?
5、如果发生 限额 提示的是 什么?
6、发生限额是否是这个月 都无法使用api,必须等到 下个月才恢复?如果是下个月恢复,是自然月 还是 从超用时刻起算30天后?
7、如果有应急的情况需要使用api 怎么办?
8、如果当前次数无法满足业务,是否支持提高限额?
9、如果创会api 调用响应结果非成功,而是异常状态,是否纳入次数计算? 是仅按照成功调度计算吗?
第一个是语音库的制作过程,第二个是使用语音库将文本变成音频的过程。
语音库的制作首先需要收集对方的需求,确定音色、风格、使用领域、产品特性、角色要求;然后找到配音员试音,根据需求设计试音文本,收集录音,通过实验分析确定发音人是否合适做音库;然后确认实验效果是否能接受;最后投入音库生产线,录音脚本设计、录音资源训练、效果优化。
理论上只要能从文本上分析出情感,就可以实现,但目前还没有解决,顶多可以由人工实现标注出情感标签来实现。语音合成擅长产出风格一致的语音(同一发音人),而缺少变化。正因如此,李易老师、任志宏老师、李立宏老师这些具备个人特色但又极其规范的发音方式,最容易获得跟其本人发音接近的合成效果,而表现力丰富的情况则不易。想象着一部动画片全部由TTS自动配音,是根本无法看的,也就看个故事,无法做到身临其境。
说白了是数据生成。可以根据文本生成语音,也可以根据语音生成语音,本质上,跟用一张图像生成另外一张图像(如生成表情,卡通生成真实图像,真实图像生成卡通等等)没有重大区别。
定义一个ground true,让生成的数据跟这个比较,使其最接近。反正所有的机器学习原理都是这个。