我需要这两个API,因为在IBM中,watson有这样一个特性,即在识别说话人方面,但是在将语音转换为文本过程中,准确性并不是很准确。虽然在中,语音转换成文本的效果更好,但是他们可以识别英语-菲律宾口音,但是在识别说话者时,IBM有更好的效果。我想要创建一个演讲文本应用程序,可以识别发言者。我的问题是,IMB和是否有可能被合并?
发布于 2019-04-01 23:11:52
您可以尝试使用时间信息组合来自这两个方面的输出。从一个获取words+timestamps,从另一个获取扬声器标签+时间戳,然后使用时间戳对齐单词和标签。
https://stackoverflow.com/questions/55454639
复制相似问题