我目前正在学习ASRfromScratch教程,但我正在尝试让它与流畅的语音数据集一起工作。我能够顺利地通过Tokenizer部分和语言模型部分,但我正在努力使用SpeechRecognizer部分。我这样修改了dataio_prepare函数,但我不确定这是否是正确的方法:
"""This function prepares the datasets to be used in the brain,因为我不知道如何使它们与我自己的数据集一起工作。,拟合模型<
由于预训练模型偶然发现了一些缩写(例如z. B.),我想将这些缩写配置到记号赋予器中。 我找不到一种方法来同时指定语言(因此使用预先训练的模型)和使用自定义缩写列表。以下是可以工作但不能组合的代码示例: 默认德语记号赋予器: nltk.sent_tokenize('Das ist z. B. ein Vogel.', language=