我有一个格式为class, unigram count, bigram count, sentiment
的数值数据集。我浏览了一些Apache Mahout文档,它们都是关于文本数据的。我知道我需要执行3个步骤来分类:转换为序列文件,矢量化序列文件,通过它来训练朴素贝叶斯分类器。但我很难理解在Mahout中对文本数据集进行分类与对数值数据集进行分类之间的区别。在我的案例中,我需要做哪些不同的事情?如果有任何帮助,我将不胜感激。
发布于 2014-09-16 17:59:39
正如您可能知道的,mahout不能使用文本数据来训练模型。如果从数值数据集开始,分类将更加容易,因为mahout处理的向量是数值数据向量。
我在文本数据集上使用了mahout,我知道在这种情况下,我必须使用字典将文本数据转换为数值数据。一些算法比其他算法更好地处理它(例如,朴素贝叶斯强烈喜欢类似文本的数据)。
因此,在您的情况下,尝试使用其他分类器,如随机福雷斯特或在线逻辑回归,以获得更有效的结果。在我的经验中,使用random forrest,你可以只定义你拥有的特征的类型(在你的例子中,你的所有特征都是数字的),所以分类可以很容易地完成。如果你想坚持使用朴素贝叶斯,我相信仍然可以对你的数值数据集进行分类,但我从来没有使用过它,所以我不能提供更多的帮助。
https://stackoverflow.com/questions/25839302
复制相似问题