我试着把语音到文本API的输出和一个基本的真实转录进行比较。我想要做的是在实际的事实中大写这些单词,而这些词不是API漏掉就是被误解了。
例如:
真理: The quick brown fox jumps over the lazy dog.
语音到文本输出: the quick brown box jumps over the dog
期望的结果: The quick brown FOX jumps over the LAZY dog.
我最初的本能是删除大写和标点符号,从实际的真理,并使用衍射。这给我带来了一个精确的差异,但我很难将输出映射回原始文本中的位置。我想保留真实大写和标点符号来显
我想构建一个带有文本框的应用程序,该应用程序捕获由Dragon Medical Practice Edition 4 (DMPE4)在Windows环境中创建的声音转录。默认情况下,DMPE4会将任何转录到光标当前位置的文本放入其中。这意味着,如果用户点击他们想要口述的地方以外的其他地方,那么语音将被转录到不同的窗口中(或者更糟糕的是,如果没有文本框可用,他们口述的内容将不会出现在任何地方)。
我想要一个具有文本框的WPF应用程序,它将捕获文本,而不管当前光标位置在哪里,它应该将转录的文本放入光标最后所在的文本框中。只要应用程序处于打开状态,包含文本框的窗口处于活动状态,就不可能在其他地方转录
我有一个包含语音单词的音频文件。我确信它包含单词,我需要检测单词的开头和结尾。 有没有关于如何使用python做到这一点的想法? 这就是我所做的。我试着用演讲_Python中的识别库。 import speech_recognition as sr
r = sr.Recognizer()
with sr.WavFile("a.wav") as source:
audio = r.record(source)
try:
list = r.recognize_google(audio,k