我想用混合语言输入来做演讲<->文本。
最初只有中文和英文,但最终会有更多的语言对。绝大多数的演讲将是英语,但少量的中文将被包括在内。该应用程序类似于“会话式语言词典”:
用混合语言输入的语音到文本:“你怎么说猫?”
用混合语言输入的文本到语音:“猫的英文单词是猫.”我希望能用以英语为母语的人的声音/口音来说话。
- I noticed that the text-to-speech demo at [this URL](https://www.microsoft.com/cognitive-services/en-us/speech-api) can handle