如何从随机森林模型的重采样中从插入符子采样中提取最终的模型数据集

文章/答案/技术大牛

发布

1回答

r-caret

在重采样过程中的子采样之后，如此处所示，我的问题很简单，当插入符号方法=“rf”且采样方法为“smote”时，如何提取从该过程产生的实际数据集。例如，如果使用rpart glm，则可以使用模型$ method= $ data提取数据；如果方法=“rpart”，则可以使用<em

浏览 21提问于2019-04-06得票数 0

1回答

R中的随机森林:报告和观察到的误差值之间的差异

我尝试在数据集上拟合随机森林。它花了几个小时，但最终适合。使用的命令是: model <- train (classe~.，data=training，method="rf"，prox=F)13737个样本52个预测器5类：'A'，'B'，'C'，'D'，'E‘ 无预处理重</em

浏览 2提问于2015-01-23得票数 2

1回答

了解随机森林博客的几个问题

r、random-forest、logistic-regression、cross-validation、sampling

我试图用随机森林和logistic回归模型来理解关于敏感性和特异性之间的权衡的好博客。我有几个问题： 1)博客在ranger包中使用了10倍的交叉验证(参见模型mod_rf)，并将度量设置为ROC。3) caret包在R中允许过采样来调整数据的不平衡。他们尝试logistic回归(见sim_glm模型)进行过抽样，并指定repeats = 2重复10倍交叉验证2次。它怎麽工作?我不

浏览 0提问于2018-12-03得票数 1

2回答

为什么模型的准确率很高，只有84%，而AUC却很低，只有13%？

python、machine-learning、random-forest

我已经建立了模型，它为随机森林和支持向量机提供了84%的准确率，但只给出了13%的非常低的auc。我是用python构建的，我是机器学习和数据科学的新手。你能告诉我这个可以吗？模型是不是太适合了？对改善auc有什么建议吗？

浏览 3提问于2017-11-02得票数 0

1回答

对一个普通的线性回归模型执行引导，使用我的数据集的B=100引导树，并获得RMSE。

machine-learning、r、rmse、bootstraping

因此，我通过R学习机器学习，并且使用来自图书馆群的波士顿数据集。我在练习私酒。我已经进行了分析，以确定如何使用数据集的B=100重采样，从示例中平均提取许多不同的数据点来构成引导重采样。接下来，我想做两件事--再次使用数据集的B=100结果执行普通线性回归模型</em

浏览 0提问于2020-04-22得票数 0

1回答

随机森林:k折交叉验证的OOB？

r、random-forest、cross-validation、r-caret

我是机器学习的新手，目前我正在尝试使用R中的插入符号和randomForest包实现随机森林分类。我正在使用trainControl函数，并反复进行交叉验证。也许这是一个愚蠢的问题，但据我所知，随机森林通常使用装袋将训练数据分成不同的子集并进行替换，使用1/3作为验证集来计算OOB。但是，如果您指定要使用k折交叉验证，会发生什么情况？从插入</e

浏览 1提问于2021-03-19得票数 0

3回答

提高插入符号(R)中的模型训练速度

r、performance、machine-learning、r-caret

我有一个由20个特征和大约300,000个观察值组成的数据集。我使用插入符号来训练带有doParallel和四个内核的模型。对于我尝试过的方法(rf，nnet，adabag，svmPoly)，即使在我10%的数据上训练也要花8个多小时。我用bootstrapping重采样了3次，我的tuneLength是5。我能做些什么来加快这个令人痛苦的缓慢过程吗？有人建议使用

浏览 0提问于2015-10-02得票数 12

回答已采纳

1回答

随机森林模型的训练误差小于测试误差

machine-learning、random-forest、sampling

我一直在研究机器学习模型，我很困惑该选择哪种模型，或者是否有其他我应该尝试的技术。我正在使用随机森林来预测使用高度不平衡的数据集进行转换的倾向。目标变量的类平衡如下所示。下面是我用于上采样和欠采样的代码train_initial

浏览 3提问于2018-11-22得票数 1

1回答

随机森林模型与其它模型的比较

neural-network、random-forest、ensemble-modeling

我是机器学习的新手，我正在努力消除随机森林中的袋外错误及其使用。通过比较随机森林的包外误差和神经网络<e

浏览 0提问于2020-09-03得票数 1

回答已采纳

1回答

错误预测成功的可能性很高

dataset、predictive-modeling、training、supervised-learning

我正在研究生产场景中机器故障的行为。为此，我生成随机数据，形成我的不平衡训练集，由分类数据组成，这些数据指示每个子周期中是否存在故障。故障是按指数分布产生的。我的目的是根据这些特性来预测下一阶段的故障行为。我使用了ROC度量，并考虑了处理不平衡数据的几种策略，如过采样、欠采样、ROSE和ADASYN。此外，我试图使用合奏来提高

浏览 0提问于2020-08-11得票数 0

1回答

过度采样只会平衡培训集，那么测试集呢？

classification、cross-validation、class-imbalance

在数据分类不平衡的情况下，我知道我们只是过采样了培训集(以防止数据从培训到测试子集的泄漏)，但是如果我的测试集中没有正数据点怎么办？测试集仍然非常偏斜，只有我的阳性类的1%。我使用XGBoost、随机森林、Logistic回归和KNN进行分类任务。同时，我也尝试过使用SMOTE、SMOTE和Class_weight来对我的训练<

浏览 0提问于2019-08-20得票数 2

回答已采纳

1回答

mlr:使用验证集优化模型参数

r、hyperparameters、mlr

刚刚切换到，用于我的机器学习工作流。我想知道是否可以使用单独的验证集来调优超参数。根据我的最低理解，makeResampleDesc和makeResampleInstance只接受来自训练数据的重采样。 resampling = makeResampleIn

浏览 0提问于2018-08-04得票数 2

回答已采纳

1回答

是否有一种仅为90%和10%拆分而不是cv的trainControl方法？

r、r-caret

我正在阅读插入文档。我想我可以做折叠=1，但不知道是否有一种指定的方法在插入符号中这样做？在文档中，trainControl()中的方法可用的参数如下：重采样方法: boot、boot632、cv、repeatedcv、LOOCV、LGOCV (用于重复训练/测试拆分

浏览 1提问于2019-02-14得票数 1

回答已采纳

3回答

在处理VotingClassifier或网格搜索时，Sklearn中的GradientBoostingClassifier是否有类权重(或替代方法)？

scikit-learn、classification

我正在为我的不平衡标签数据集使用GradientBoostingClassifier。在Sklearn中，类权重似乎并不是这个分类器的参数。我知道我可以在合适的时候使用sample_weight，但在处理VotingClassifier或GridSearch时就不能使用它了。有人能帮帮忙吗？

浏览 3提问于2016-02-22得票数 10

2回答

如何替换包randomForest r中的引导步骤？

r、function、edit、random-forest、statistics-bootstrap

例如，我训练了一个经过增强训练的模型，并将其与随机森林训练模型(R包randomForest)进行了比较。我使用时间序列数据，其中解释变量是其他数据和因变量的滞后值。由于某种原因，随机森林的表现严重不足。我能想到的问题之一是，随机森林对每棵树的训练数据执行一个抽样步骤。如果对时间序列数据这样

浏览 6提问于2015-08-17得票数 5

回答已采纳

3回答

随机森林分类器- KFold CV调很深的树->过配？

machine-learning、random-forest、cross-validation、class-imbalance

我正在对python中的随机森林进行调优，并想知道我的模型是否/为什么过于合适。数据集描述如下：50个数字特征，~450标签/热编码特征(后数据缩减)分类度量=AUC或F1 (由于数据不平衡) 我得到的</

浏览 0提问于2018-06-19得票数 3

2回答

极小数据集的二进制分类(<40个样本)

machine-learning、scikit-learn、binary-classification

我试图在一个非常小的数据集上进行二进制分类，包括3个负样本和36个正样本。我一直在测试不同的模型从科学学习(逻辑回归，随机森林，svc，mlp)。我读过使用玫瑰或各种口味的打击炮的过度采样技术，但也读到过采样会导致过度适合或不会提高性能。我尝试过过采样训练集，根据数据如何分割成火车/测试，不同

浏览 0提问于2022-07-14得票数 2

回答已采纳

1回答

使用传感器的时间序列预测故障的最佳模型

python、classification、lstm、recurrent-neural-network、prediction

我正在与一家公司合作一个项目，开发用于预测性维护的ML模型。我们拥有的数据是日志文件的集合。在每个日志文件中，我们都有来自传感器(温度、压力、MototSpeed等)的时间序列。和一个变量，我们在其中记录发生的故障。这里的目标是构建一个模型，该模型将使用日志文件作为其输入(时间序列)并预测是否会出现故障。为此，我有一些问题: 1)能够做到这一点的最佳模型是什么?2)处理不平衡<em

浏览 4提问于2020-06-02得票数 0

1回答

用于tensorflow的音频重采样层

tensorflow、keras、audio、neural-network、resample

它需要在自定义模型结构中重采样音频信号。这种重采样任务不是一种可以从模型中发展出来的预处理/后处理操作。换句话说，这种重采样是模型内部设计的一部分。然后，还需要为这样一个层定义梯度操作。对于重采样操作，它将使用tensorflow I/O：操作工作非常完美，可以很容易地用作前/后处理单元；然而，

浏览 2提问于2022-03-29得票数 0

2回答

我应该重新整理数据集吗？

decision-trees、class-imbalance

我拥有的数据集是由路径名组成的一些文本数据。我正在使用TF-国防军向量器和决策树。数据集中的类严重不平衡。有几个大类的样本数超过500个，而其他一些小类的样本数少于100个。有些甚至更小(不到20)。这是实际收集的数据，因此模型在实际实现中看到次要类的可能性也很小。我现在遇到的问题是，模型大部分时间预测小班为主修班，使我的准确率

浏览 0提问于2021-07-14得票数 0

点击加载更多