腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

社区首页 >问答首页 >朴素贝叶斯文档分类器的长度归一化

问朴素贝叶斯文档分类器的长度归一化
EN

Stack Overflow用户

提问于 2011-09-09 09:43:40

回答 1查看 2.2K关注 0票数 5

我试图实现一个朴素的Bayes分类器来对本质上是特征集(而不是袋子)的文档进行分类，也就是说，每个特性都包含一组独特的特性，每个特征最多只能在文档中出现一次。例如，您可以将这些特性视为文档的唯一关键字。

我一直在密切关注et的伦尼。阿尔。http://www.aaai.org/Papers/ICML/2003/ICML03-081.pdf的论文，但我遇到了一个似乎没有得到解决的问题。也就是说，对短文档进行分类，由于文档具有较少的特征，因此产生了更高的后验概率；而对于长文档，则相反。

这是因为后验概率被定义为(忽略分母)：

P(class|document) = P(class) * P(document|class)

它会扩展到

P(class|document) = P(class) * P(feature1|class) * ... * P(featureK|class)

由此可以看出，特征较少的短文档具有较高的后验概率，这仅仅是因为相乘的术语较少。

例如，假设功能"foo“、"bar”和"baz“都出现在积极的培训观察中。然后，具有单一特征"foo“的文档在正类中被分类的后验概率要高于具有特征{"foo”、"bar“、"baz"}的文档。这似乎违反直觉，但我不太确定如何解决这个问题。

是否有某种长度归一化可以完成？一个想法是将文档的大小作为一个特性添加，但这似乎不太正确，因为结果会被培训数据中的文档大小所扭曲。

machine-learning

data-mining

classification

bayesian

腾讯云BI 新春特惠

首年仅需9.9元，续费同价

回答 1

Stack Overflow用户

回答已采纳

发布于 2011-09-10 10:57:15

这是一个很好的问题，现在我不完全确定这里是否有问题。后验概率只是简单地给出给定文档的每个类的概率(即每个文档类的概率)。因此，在对文档进行分类时，您只是比较给定同一文档的后验，因此特征的数量不会改变(因为您没有跨文档)，即：

P(class1|document) = P(class1) * P(feature1|class1) * ... * P(featureK|class1)
...
P(classN|document) = P(classN) * P(feature1|classN) * ... * P(featureK|classN)

具有最高后验的类将被称为文档的标签。因此，由于特性的数量似乎取决于文档而不是类，因此不需要进行规范化。

我是不是遗漏了什么？如果您想做的不仅仅是分类，例如希望比较特定类中最可能的文档，那么您必须使用后验概率的实际定义：

P(class1|document) = P(class1) * P(feature1|class1) * ... * P(featureK|class1)/Sum_over_all_numerators

这将在不同特征长度的文档中正确地标准化。

票数 4

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/7365417

复制

免费静态托管 | 笔记

https 网络安全容器镜像服务 github git

引言 1. GitHub Pages https://pages.github.com/ 2. Vercel https://vercel.com image-20220215150427498 image-20220215150451627 image-20220215150557195 这里只能输入公开的仓库地址下面在 GitHub 私有仓库，利用 GitHub App 来安装 Vercel, 更新: 错误，GitHub Marketplace 没有 Vercel App, 通过下方

yiyun

2022/04/01

5.1K0

服务器托管你知道应该怎么做吗？

云服务器

企商在线

2021/11/29

6.2K0

VerCel 免费托管前端项目

https 网络安全 javascript 云服务器 github

通常我们部署一个简单项目只是想要演示，要想外网访问，一般考虑的是购买阿里云服务器或者腾讯云服务器，在打包上去部署。购买服务器也是一比不少的开支，但是购买服务器也只是简单的部署一下自己的网页演示，导致买的服务器作用也不大。这个时候就可以考虑使用 vercel 部署，不要我们dist打包，还能免费的部署,省去一些麻烦。

2022/03/21

2.9K0

Vercel: 免费托管你的 API 服务

https 网络安全 github git 开源

Vercel，官网 https://vercel.com (opens new window)[1]，如同 Netlify 一般，可以提供免费的前端应用托管，甚至对开发者更加亲和与友好。

山月

2020/12/16

8.3K0

开源组件清单有人知道这个可以去哪里获取清单吗？

python 开源 chatgpt 科技数据

前几天在Python最强王者交流群【哎呦喂是豆子～】问了一个ChatGPT数据提取的问题，一起来看看吧。

Python进阶者

2023/11/13

1780

有人知道如何提取matlab符号表达式系数吗？

网络安全 https matlab html

调用方法：[C,T] = coeffs(___)，C为返回的系数，T为对应多项式项

巴山学长

2019/12/27

4.7K0

你知道在iOS开发的工作中为什么有人4k有人40k吗？

ios 微信

　　如果你有志于将iOS开发作为职业，或者已经是一位iOS开发者，那么你应该听说过唐巧的名字。唐巧，2012年从网易有道离开参与创业，目前是猿题库iOS高级研发工程师。难得的是，他本身是一线的iOS开发者，同时又对iOS开发在国内的布道做了不少的工作，身影活跃于博客、微博、微信公众账号等地。从2011年以来，唐巧开始在博客分享自己写的iOS开发技术文章，CocoaChina 也曾多次转载过他的博客文章，后来他成为InfoQ兼职编辑，除了发表技术文章之外，还负责整理《iOS移动开发周报》，至今已有35期，他的微博和微信公众账号粉丝都超过1万，可以说是iOS开发领域的“大V”。并且他的新书《iOS开发进阶》已经和大家见面，也引得他的粉丝的一份热潮

Kris大鲨

2018/05/11

2.8K3

使用 Netlify 免费托管前端项目

github git 开源容器镜像服务容器

本系列的第一篇文章如何使用免费服务搭建一个博客 (opens new window)[1]，其中提到了使用 netlify 做博客托管服务，本篇文章对其做简单介绍。

山月

2020/12/16

3.2K0

java wsdl asmx 替换_WebService asmx生成的wsdl 修改 location

https http 网络安全 javascript java

C#中使用webservice接口的时候，返给服务器的IP地址是带上了端口号的。但是有时候不能要那个端口(比如用nginx做了转发)，就需要在服务端处理一下(处理内容就是后面的代码)。此外，需要在配置文件中web.config中的system.web中添加一些东西：

全栈程序员站长

2022/09/02

6770

你知道网络为什么要分层吗？

tcp/ip http

当你听到什么二层设备、三层设备、四层 LB 和七层 LB 中层的时候，是否有点一头雾水，不知道这些所谓的层，对应的各种协议具体要做什么“工作”？

网络技术联盟站

2020/09/14

1.5K0

代码托管你只知道 GitHub？

github 开源 .net git

你可能对全球最大的同性交友平台 GitHub 并不陌生，它是开源项目最喜欢的托管平台。要想托管代码，如果你只知道 GitHub，那下面这两款你真的应该了解一下。

恋喵大鲤鱼

2022/11/18

1K0

php .asmx,php实现通过soap调用.Net的WebService asmx文件

php 编程算法网站 java http

本文实例讲述了php实现通过soap调用.Net的WebService asmx文件。分享给大家供大家参考，具体如下：

全栈程序员站长

2022/06/27

1.1K0

21 - JavaScript 中少有人知道的技巧

javascript 编程算法 https ecmascript 网络安全

原文链接：https://dev.to/bhagatparwinder/lesser-known-javascript-tricks-kjj

前端黑板报

2022/12/01

2160

java 调用asmx[通俗易懂]

编程算法 java ios tcp/ip

大家好，又见面了，我是你们的朋友全栈君。package com.webservice.test;

全栈程序员站长

2022/06/27

1.9K0

修改asmx样式

actionscript javascript html 网站腾讯云测试服务

当时就感觉有意思，这个页面风格和我们平时的不一样，我们平时的WebService长这样：

全栈程序员站长

2022/08/11

1.5K0

java怎么调用.asmx_Java调用Webservice(asmx)的例子

java 编程算法网站 https xml

private String url=”http://www.webxml.com.cn/WebServices/WeatherWebService.asmx”;//提供接口的地址

全栈程序员站长

2022/08/31

1.2K0

17 个免费托管后端代码的网站工具

网站部署服务器工具后端

1.Google Compute Engine/谷歌云功能 https://cloud.google.com/compute?hl=zh-cn 谷歌计算引擎是谷歌云平台的一个组件，允许开发人员在谷歌的

winty

2023/08/23

1.7K0

java访问asmx接口

java https 网络安全

发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/131882.html原文链接：https://javaforall.cn

全栈程序员站长

2022/06/30

7970

腾讯云免费SSL证书托管服务

SSL 证书 openssl ssl-certificate

腾讯云免费 SSL 证书有效期由12个月调整至3个月。2024年4月25日零点以后，在腾讯云申请的免费 SSL 证书有效期由12个月调整至3个月，原来是一年可以免费使用，一年到了之后，去控制台重新申请一下，上传到网站服务器，还算方便，现在缩短到3个月，变得非常繁琐，主要是经常忘记去续期，导致网站访问不了，有的对接了小程序的，更加麻烦，必须牢记这个过期期限。

用户1573220

2024/05/20

5840

java 调用.asmx_Java调用asmx的一个例子

java 编程算法 xml http https

import org.apache.axis.client.Service; public class Test {

全栈程序员站长

2022/09/06

3470

相似问题

从我的Cocoa代码终止应用程序

Cocoa屏保嵌入Quartz

Java for循环没有在我的代码中终止

228

我可以在Cocoa框架代码中设置断点吗？

通过Cocoa终止进程

活动推荐

提供大模型在企业的应用构建、高效便捷

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

问朴素贝叶斯文档分类器的长度归一化
EN

腾讯云BI 新春特惠

回答 1

Stack Overflow用户

从我的Cocoa代码终止应用程序

Cocoa屏保嵌入Quartz

Java for循环没有在我的代码中终止

我可以在Cocoa框架代码中设置断点吗？

通过Cocoa终止进程

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问朴素贝叶斯文档分类器的长度归一化EN

腾讯云BI 新春特惠

回答 1

Stack Overflow用户

从我的Cocoa代码终止应用程序

Cocoa屏保嵌入Quartz

Java for循环没有在我的代码中终止

我可以在Cocoa框架代码中设置断点吗？

通过Cocoa终止进程

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问朴素贝叶斯文档分类器的长度归一化
EN