我正在尝试使用wav vad (语音活动检测)功能来分析SoX文件,以确定它是否包含语音(这并不奇怪)。但是,我在没有音频设备的Linux服务器上的命令行上使用它。我希望我能够以某种方式运行命令并捕获输出,但vad功能似乎依赖于使用"play“命令,而这似乎依赖于音频设备。
有没有办法在没有音频设备的情况下做到这一点?
我正在工作的程序的概念是一个Python模块,它可以检测特定的频率(人类语音频率80-300 of ),并通过从数据库中进行检查来显示句子的语调。我使用SciPy来绘制声音文件的频率,但是我不能设置任何特定的频率来分析音高。我该怎么做呢?
更多信息:我希望能够在语音中设置定义的模式(例如,上升,下降),程序会检测声音文件是否遵循特定的模式。
文本到语音
我一直试图在windows和Linux环境中运行pyttsx .
Linux环境:
import pyttsx
engine = pyttsx.init()
python在执行第一行之后就挂起了。我通过在交互式shell提示符中运行这两行来验证上述语句。
windows环境:
import pyttsx
engine = pyttsx.init()
engine.say('Sally sells seashells by the seashore.')
engine.say('The quick brown fox jumped over the lazy