例如,我在设置目标类时遇到了问题。想象一下这样的情况:我得到了两个回归结果(包含斜率和截距),因为我将前四个属性设置为双倍,最后一个属性,即目标属性是由索引而不是值设置的。
下面是代码中的样子:
for (RegressionArffRow row : input) {
Instance record = new SparseInstance(attrInfo.size());
int attrIdx = 0;
for (RegressionResult regResult : row.getRegressionResults()) {
让X是一个基数很高的类别,Y是我的目标。当我查看X发行版到Y时,我发现其中一些级别非常相似。我想找到一种方法来组合它们(假设X_1和X_3在那里Y分布的频率上非常相似),其中X in (x_1,...,x_n)和y in (y_1,...,y_n)
📷
找到所有具有类似X分布的D11子组的最佳方法是什么?我之所以这么做,是因为我知道我的很多Xs都是一样的,但是有人给他们贴上了不同的标签。
我已经开始对每个X和它的Ys分布的频率表做spearman矩阵,但是我不确定它是否正确,它给了我一些不好的结果。
我正在寻找逻辑回归的Spark 1.5 和。据我所知,其中的train方法首先将dataframe转换为RDD[LabeledPoint] as,
override protected def train(dataset: DataFrame): LogisticRegressionModel = {
// Extract columns from data. If dataset is persisted, do not persist oldDataset.
val instances = extractLabeledPoints(dataset).map {
我的目标变量(y)中缺少值。因为我想用更多的数据来训练我的模型,所以我不想删除丢失的行,而是使用KNN输入算法。同时,我也想防止数据泄露。因此,最好的方法是将数据拆分为“列车”和“测试”,然后在列车数据集中计算丢失的目标变量(对于测试数据集中的缺失值也可以这样做)。
但是,我遇到了一个错误:
ValueError: Input contains NaN, infinity or a value too large for dtype('float64').
据我所知,缺失值(NaN)创建了特定的错误。
当目标变量中缺少值时,如何继续?
我有这样的数据
shift_id user_id status organization_id location_id department_id open_positions city zip role_id specialty_id latitude longitude years_of_experience