首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何在Apache Mahout中对数值数据进行分类?

如何在Apache Mahout中对数值数据进行分类?
EN

Stack Overflow用户
提问于 2014-09-15 08:21:55
回答 1查看 274关注 0票数 0

我有一个格式为class, unigram count, bigram count, sentiment的数值数据集。我浏览了一些Apache Mahout文档,它们都是关于文本数据的。我知道我需要执行3个步骤来分类:转换为序列文件,矢量化序列文件,通过它来训练朴素贝叶斯分类器。但我很难理解在Mahout中对文本数据集进行分类与对数值数据集进行分类之间的区别。在我的案例中,我需要做哪些不同的事情?如果有任何帮助,我将不胜感激。

EN

回答 1

Stack Overflow用户

发布于 2014-09-16 17:59:39

正如您可能知道的,mahout不能使用文本数据来训练模型。如果从数值数据集开始,分类将更加容易,因为mahout处理的向量是数值数据向量。

我在文本数据集上使用了mahout,我知道在这种情况下,我必须使用字典将文本数据转换为数值数据。一些算法比其他算法更好地处理它(例如,朴素贝叶斯强烈喜欢类似文本的数据)。

因此,在您的情况下,尝试使用其他分类器,如随机福雷斯特或在线逻辑回归,以获得更有效的结果。在我的经验中,使用random forrest,你可以只定义你拥有的特征的类型(在你的例子中,你的所有特征都是数字的),所以分类可以很容易地完成。如果你想坚持使用朴素贝叶斯,我相信仍然可以对你的数值数据集进行分类,但我从来没有使用过它,所以我不能提供更多的帮助。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/25839302

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档