我一直试图找出这两个模型的错误率和特征数量之间的相关性。我看了一些视频,视频的创作者说,一个简单的模型比一个复杂的模型更好。所以我想,我拥有的功能越多,错误率就越高。事实证明,这在我的工作中是不正确的,而且当我的特性减少时,错误率就会上升。我不知道我是不是做错了,或者视频里的那个人犯了什么错误。有人能解释一下吗?我也很好奇,特性与Logistic回归的错误率有什么关系。
发布于 2013-10-02 17:55:09
朴素贝叶斯和Logistic回归是一种“生成-判别对”,这意味着它们具有相同的模型形式(线性分类器),但它们以不同的方式估计参数。
对于特征x和标号y,naive Bayes从训练数据中估计出联合概率p(x,y) =p(Y)*p(x=y)(即建立一个能够“生成”数据的模型),并使用Bayes对新的测试实例进行预测。另一方面,logistic回归直接从训练数据中估计p(y=x),方法是最小化一个误差函数(更多的是“描述性”)。
这些差异对错误率有影响:
如果这些特性实际上(主要是)有条件独立的,那么如果有足够的数据实例,这两个模型实际上可能会随着越来越多的特性而得到改进。当训练集的大小相对于特征的数量很小时,问题就出现了。先验的朴素贝叶斯特征参数,或正则化方法(如L1/Lasso或L2/Ridge)的logistic回归可以帮助这些情况。
https://stackoverflow.com/questions/19129141
复制相似问题