我想问你如何使用分类器和确定模型的准确性。我有我的数据集,我已经清理了文本(删除断点,标点符号,删除空行,.)。然后我把它分成火车和测试。由于我想确定一个电子邮件是否是垃圾邮件,我已经使用了常见的分类器,即朴素贝叶斯,支持向量机和逻辑回归。在这里,我只是包括我的火车和测试数据集:没有其他!我正在使用Python运行此分析。我的问题是:应该足够了还是应该实现新的算法?
如果你能给我一个例子,说明一个已经存在的算法是如何被改进的,那也是很好的。
我阅读了大量关于文本分类准确性的文献,在所有的论文中,作者使用支持向量机、Na ve Bayes、logistic回归等方法对垃圾邮件进行分类。但我不知道他们是构建了自己的分类器,还是仅仅使用了Python中现有的分类器。
在这方面有经验吗?
发布于 2020-08-14 15:10:38
这个问题混合了两个不同的概念:模型(或算法)和准确性。让我澄清一下。
(#Number of correctly predicted samples / #Total number of samples) * 100
。其中,#Number of correctly predicted samples
是地面真实标签和预测标签相同的样本的计数。https://datascience.stackexchange.com/questions/80287
复制相似问题