当我尝试Apache来解决多类分类问题时,我得到了以下错误。有谁能解释一下是否有一种方法可以使用Apache Spark MLlib进行支持向量机多类分类?
Exception in thread "main" org.apache.spark.SparkException: Input validation failed.
at org.apache.spark.mllib.regression.GeneralizedLinearAlgorithm.run(GeneralizedLinearAlgorithm.scala:251)
at org.apache.
我有一个关于朴素贝叶斯分类器的理论问题。假设我已经用以下训练数据训练了分类器:
class word count
-----------------
pos good 1
sun 1
neu tree 1
neg bad 1
sad 1
假设我现在将其归类为“好太阳”。现在有两个选项:
1)根据训练数据进行分类,训练数据保持静态。意思是“好的”和“太阳”都来自积极的类别,将这个字符串分类为积极的。分类后,训练表保持不变。因此,根据训练数据的静态集合对所有字符串进行分类。
2)对字符串进行分类,然后更新训练数据,如下表所示。因此,下一个字符串
我有一个包含125条记录的训练有素的数据集。我将使用NaiveBayesUpdatable对新实例进行分类。但是当我运行naiveBayes (在windows下,使用WEKA3.4)时,我得到以下错误:
java.lang.ArrayIndexOutOfBoundsException: 126
at weka.estimators.DiscreteEstimator.getProbability(Unknown Source)
at weka.classifiers.bayes.NaiveBayes.distributionForInstance(Unknown Source
你在那儿!我只需要在Java中实现朴素贝叶斯文本分类算法的帮助,就可以测试我的数据集,以供研究之用。必须在Java中实现该算法,而必须使用Weka或Rapid工具来获得结果!
我的数据集有以下类型的数据:
Doc Words Category
意味着我对每个训练(字符串)都有预先知道的训练单词和类别。一些数据集如下:
Doc Words Category
Training