首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >分类器与精度

分类器与精度
EN

Data Science用户
提问于 2020-08-14 14:20:55
回答 1查看 76关注 0票数 0

我想问你如何使用分类器和确定模型的准确性。我有我的数据集,我已经清理了文本(删除断点,标点符号,删除空行,.)。然后我把它分成火车和测试。由于我想确定一个电子邮件是否是垃圾邮件,我已经使用了常见的分类器,即朴素贝叶斯,支持向量机和逻辑回归。在这里,我只是包括我的火车和测试数据集:没有其他!我正在使用Python运行此分析。我的问题是:应该足够了还是应该实现新的算法?

如果你能给我一个例子,说明一个已经存在的算法是如何被改进的,那也是很好的。

我阅读了大量关于文本分类准确性的文献,在所有的论文中,作者使用支持向量机、Na ve Bayes、logistic回归等方法对垃圾邮件进行分类。但我不知道他们是构建了自己的分类器,还是仅仅使用了Python中现有的分类器。

在这方面有经验吗?

EN

回答 1

Data Science用户

回答已采纳

发布于 2020-08-14 15:10:38

这个问题混合了两个不同的概念:模型(或算法)和准确性。让我澄清一下。

  1. 模型(或算法)是一种分类技术,“精度”是评价模型性能的方法之一。
  2. 您可以选择任何模型(朴素贝叶斯、支持向量机或其他深度学习技术)来实现您的分类器。它们独立于“准确性”或“F1”或任何其他要测试性能的度量。
  3. 首先,您应该对文本进行预处理(移除断句、标点符号等),而预处理是一种选择,即在进入模型之前,数据应该是什么样的。它们确实会影响模型的性能,但如果做得正确,则不会在很大程度上影响模型的性能。通常,对列车和测试装置都要进行预处理.
  4. 模型性能:一旦您实现了您的模型,您可能想看看它的概括程度(对未见数据的性能)。因此,您应该将数据集分成两部分:训练集和测试集。(通常大部分作者分为3部分:训练集、验证集(以避免过度拟合)和测试集)。你应该用训练集来训练模型,并且测试集用来评估模型的性能。
  5. 模型评估:一旦对训练数据进行训练,就可以预测测试集上的标签。因此,测试集中有两组标签: 1:基本真理(由测试集指示的实际标签)和2:预测标签(模型预测的标签)。现在,使用您选择的评估度量(假设您希望选择“准确性”作为评估指标)。精度可以简单地计算为:(#Number of correctly predicted samples / #Total number of samples) * 100。其中,#Number of correctly predicted samples是地面真实标签和预测标签相同的样本的计数。
票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/80287

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档