所以我正在尝试做一个语音分类器,挑战是预测说话的人是我还是其他人,我已经建立了一个简单的代码,将.wav文件转换为数组,所以我所有的音频文件数据集我说话将被转换为数组,事情是,我是一个初学者,我不知道如何只使用一个变量来预测(我的声音),就像说对或错,我怎么才能做出这样工作的神经网络(CNN)呢?
或者我应该使用另一种类型的机器学习?而不是深度学习?我想在这个项目中使用深度学习。
发布于 2021-04-03 07:04:01
因为您似乎对这个主题相对较新,所以我建议您从这个简单的分类任务的更简单的机器学习模型开始。也许对于第一个模型,Logistic回归就足够了。
那么,你说你收集了一些你自己的声音(你的正类)的样本,但你也从其他人那里收集了一些负面的样本吗?
在此之后,我建议将转换后的样本分成相等的片断序列,并对它们进行标记(您的声音还是其他声音?)。
现在,以此为基础,您可以测试一些更简单的模型,如Logistic回归或KNN。然后,您可能会前进到一些简单的前馈神经网络,然后继续一些高级模型,如CNN或RNN。
https://stackoverflow.com/questions/66925505
复制相似问题