我如何将从朴素贝叶斯预测的句子类别表示为CRF++或Wapiti中的一个特征?例如,如果句子Tumblr merges with Yahoo.被归类为Business,那么在编写crf的训练文件时,我可以在哪里将标签Business表示为特征?那么模板应该如何建模呢?列车文件应该是这样的吗merges business O
with
我正在尝试构建一个回归模型,其中一个特性包含文本数据。我在考虑使用scikit-learn的sklearn.feature_extraction.text.TfidfVectorizer。然而,问题是实际字符串包含的单词非常少。平均1.8。这是一个样本:1 car stereo3 refrigeratorTfidfVectorizer或者,这种稀疏的结果矩阵不会对