分类错误率的确切定义是什么?为什么有些研究者用错误率来报告他们的结果而不是准确性?我试图将我的文本分类结果与文献中的其他方法进行比较,但它们使用的是错误率而不是准确性,而且我无法找到精确的定义/方程来找出我的方法的错误率。
发布于 2018-10-17 17:09:57
对于分类,输出是离散的(就像将项放入桶中一样),因此精确性有一个非常简单的定义:
精度= (#分类正确)/ (#分类总数)
错误率同样简单:
错误率=1-精度=1- (#分类正确)/ (#分类总数)
= (#分类错误)/ (#分类总数)
注意,对于具有连续输出的任务,事情要复杂得多。如果不是将项目放入桶中,而是要求模型将项目放在数字行上,那么准确性不再是“对”和“错”的问题,而是我的模型离正确的距离有多近。这可能是平均贴近度、中位贴近度等。还有更复杂的度量方法,主要是在它们随着距离的增加而称重的程度上有所不同。也许稍微差一点比差很多要好得多,所以根均方错误度量是合适的。另一方面,不管是差一点还是差很多,如果差一小部分的话可能会很糟糕,所以用对数误差度量会更好。
要回答你问题的最后一部分:在离散的情况下,为什么要选择准确性和错误?光学是一回事:"99%的准确率“发出的心理信息与”错误率为1%“不同。此外,精度从99%提高到99.9%是提高了1%的精度,但误差从1%降低到.1%是90%的误差,尽管两者表达了相同的现实世界的变化。
否则,可能是个人喜好或写作风格。
编辑:你也可能对这篇关于统计堆栈交换的文章感兴趣
https://stackoverflow.com/questions/52865390
复制