我现在正在做nltk_classifier分类句子的分类。
所以我已经用11000句的特征训练了分类器。
train_set, test_set = featuresets[1000:], featuresets[:1000]
classifier = naivebayes.NaiveBayesClassifier.train(train_set)
但我想增加更多的(句子,类别)特征,以升级分类器。我唯一知道的方法就是把特写添加到学习特写的列表中。这样就能制造出新的分类器。但我认为这种方法并不有效,因为训练一个或几个句子需要很长时间。
有什么好的方法可以通过增加特征集来提高分类器的质量?
发布于 2016-11-06 21:26:47
两件事。
m
)和分母(n
),这既适用于类优先级P(C)
,也适用于给定类P(W|C)
的特征概率。您可以通过m/n
导出概率。文档分类中贝叶斯公式的友好提示
-给定一个文档D
,该文档属于C_j
类别的概率是:
P(C_j|D) = P(D|C_j)*P(C_j)/P(D)
-这种可能性与以下因素成正比:
P(C_j|D) ~ P(W1|C_j) P(W2|C_j) ... P(Wk|C_j) * P(C_j)
根据:
W1, W2, ..., Wk
都是独立的),P(D)
,因为每个类都有与分母相同的P(D)
(因此我们说比例不等于)。--现在右侧的所有概率都可以由相应的分数(m/n
)计算,其中m
和n
存储(或可以导出)在特征类共现矩阵中。
https://stackoverflow.com/questions/40447335
复制相似问题