首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >朴素贝叶斯与Logistic回归误差率

朴素贝叶斯与Logistic回归误差率
EN

Stack Overflow用户
提问于 2013-10-02 02:34:10
回答 1查看 5.9K关注 0票数 7

我一直试图找出这两个模型的错误率和特征数量之间的相关性。我看了一些视频,视频的创作者说,一个简单的模型比一个复杂的模型更好。所以我想,我拥有的功能越多,错误率就越高。事实证明,这在我的工作中是不正确的,而且当我的特性减少时,错误率就会上升。我不知道我是不是做错了,或者视频里的那个人犯了什么错误。有人能解释一下吗?我也很好奇,特性与Logistic回归的错误率有什么关系。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-10-02 17:55:09

朴素贝叶斯和Logistic回归是一种“生成-判别对”,这意味着它们具有相同的模型形式(线性分类器),但它们以不同的方式估计参数。

对于特征x和标号y,naive Bayes从训练数据中估计出联合概率p(x,y) =p(Y)*p(x=y)(即建立一个能够“生成”数据的模型),并使用Bayes对新的测试实例进行预测。另一方面,logistic回归直接从训练数据中估计p(y=x),方法是最小化一个误差函数(更多的是“描述性”)。

这些差异对错误率有影响:

  1. 当训练实例很少时,logistic回归可能会“过于适合”,因为没有足够的数据来可靠地估计p(y=x)。朴素贝叶斯可能会做得更好,因为它模拟了整个联合分布。
  2. 当特征集很大时(和文本分类中的单词特征一样,稀疏),朴素贝叶斯可能会“双计数”彼此关联的特征,因为它假设每个p(X_X_Y)事件是独立的,而它们不是。Logistic回归可以自然地“分割”这些相关特征之间的差异,从而做得更好。

如果这些特性实际上(主要是)有条件独立的,那么如果有足够的数据实例,这两个模型实际上可能会随着越来越多的特性而得到改进。当训练集的大小相对于特征的数量很小时,问题就出现了。先验的朴素贝叶斯特征参数,或正则化方法(如L1/Lasso或L2/Ridge)的logistic回归可以帮助这些情况。

票数 27
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/19129141

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档