问朴素贝叶斯与Logistic回归误差率
EN

Stack Overflow用户

提问于 2013-10-02 02:34:10

回答 1查看 5.9K关注 0票数 7

我一直试图找出这两个模型的错误率和特征数量之间的相关性。我看了一些视频，视频的创作者说，一个简单的模型比一个复杂的模型更好。所以我想，我拥有的功能越多，错误率就越高。事实证明，这在我的工作中是不正确的，而且当我的特性减少时，错误率就会上升。我不知道我是不是做错了，或者视频里的那个人犯了什么错误。有人能解释一下吗？我也很好奇，特性与Logistic回归的错误率有什么关系。

machine-learning

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-10-02 17:55:09

朴素贝叶斯和Logistic回归是一种“生成-判别对”，这意味着它们具有相同的模型形式(线性分类器)，但它们以不同的方式估计参数。

对于特征x和标号y，naive Bayes从训练数据中估计出联合概率p(x，y) =p(Y)*p(x=y)(即建立一个能够“生成”数据的模型)，并使用Bayes对新的测试实例进行预测。另一方面，logistic回归直接从训练数据中估计p(y=x)，方法是最小化一个误差函数(更多的是“描述性”)。

这些差异对错误率有影响：

当训练实例很少时，logistic回归可能会“过于适合”，因为没有足够的数据来可靠地估计p(y=x)。朴素贝叶斯可能会做得更好，因为它模拟了整个联合分布。
当特征集很大时(和文本分类中的单词特征一样，稀疏)，朴素贝叶斯可能会“双计数”彼此关联的特征，因为它假设每个p(X_X_Y)事件是独立的，而它们不是。Logistic回归可以自然地“分割”这些相关特征之间的差异，从而做得更好。

如果这些特性实际上(主要是)有条件独立的，那么如果有足够的数据实例，这两个模型实际上可能会随着越来越多的特性而得到改进。当训练集的大小相对于特征的数量很小时，问题就出现了。先验的朴素贝叶斯特征参数，或正则化方法(如L1/Lasso或L2/Ridge)的logistic回归可以帮助这些情况。

票数 27

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/19129141

复制

相似问题

问朴素贝叶斯与Logistic回归误差率
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问朴素贝叶斯与Logistic回归误差率EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问朴素贝叶斯与Logistic回归误差率
EN