在使用WaveNet语音时使用ssml时,无法生成不同的音频波形。
<prosody rate="slow" pitch="-2st">Can you hear me now?</prosody>
<prosody rate="medium" pitch="1st">Can you hear me now?</prosody>
<prosody rate="high" pitch="5st">Can you hear me now?</prosody>使用emphasis标签会产生相同的结果。
我们使用来自Google Cloud Text- to -Speech的Python API来请求音频生成。
我想在每个样本中听到不同的声音强度。
请注意,我们也尝试美化",但它对生成的音频没有任何影响。
发布于 2020-08-25 03:10:22
我不知道Python sdk是什么样子的,但我目前正在使用他们的NodeJs sdk for TTS。
看起来,这些韵律属性(速率,音量,音高),而不是设置和传递你的ssml文本,应该直接在请求对象中配置,该对象将被发送到Google TTS api。
https://stackoverflow.com/questions/55918292
复制相似问题