使用‘脱字符’包对随机森林进行K-折验证时的变量编码

、、、、

我想运行一个RF分类，就像在'randomForest‘中指定的一样，但仍然使用k重重复交叉验证方法(代码如下)。如何阻止插入符号从我的分类变量中创建虚拟变量？我读到这可能是由于一个热编码，但不确定如何改变这一点。我将非常感谢一些关于如何解决这个问题的例子！$ protected_area: num 7.55 10.93 2.84 2.89 12.71 … 剩下的： > control <- trainCont

浏览 9提问于2020-10-23得票数 0

回答已采纳

1回答

如何自动排除predict.randomForest中未见的新因素水平？

、、

我正在使用ramdomForest包创建一个随机森林模型。也许数据集是巨大的，有100多万个200+变量的观测结果。当使用样本数据训练随机森林时，我无法捕获所有变量的所有因素级别。因此，在使用predict()对验证集进行预测时，它会抛出一个错误，因为存在新的因素级别，而这些

浏览 5提问于2015-09-28得票数 2

回答已采纳

2回答

如何替换包randomForest r中的引导步骤？

、、、、

例如，我训练了一个经过增强训练的模型，并将其与随机森林训练模型(R包randomForest)进行了比较。我使用时间序列数据，其中解释变量是其他数据和因变量的滞后值。由于某种原因，随机森林的表现严重不足。我能想到的问题之一是，随机森林对每棵树的训练数据执行一个抽样步骤。如果对时间序列数据这样

浏览 6提问于2015-08-17得票数 5

回答已采纳

1回答

随机森林:k折交叉验证的OOB？

、、、

我是机器学习的新手，目前我正在尝试使用R中的插入符号和randomForest包实现随机森林分类。我正在使用trainControl函数，并反复进行交叉验证。也许这是一个愚蠢的问题，但据我所知，随机森林通常使用装袋将训练数据分成不同的子集并进行替换，使用1/3作为验证集来计算OOB。

浏览 1提问于2021-03-19得票数 0

1回答

MATLAB交叉值函数向单元阵列抛出错误

、、、

matlab crossvalind函数进行K-折叠交叉验证.当我试图运行indices = crossvalind('Kfold',seqs,2);时，我得到以下错误： seqs{1} - Group 1 seqs{2

浏览 2提问于2017-06-19得票数 2

回答已采纳

5回答

选择二进制分类算法

、、、、

我有一个二进制分类问题：10个属性，包括二进制、数字和范畴这类问题的最佳选择是哪种算法？默认情况下，我将从SVM (将标称属性值转换为二进制特性)开始，因为它被认为是相对干净且不含噪声的数据的最佳选择。

浏览 0提问于2014-06-15得票数 20

回答已采纳

1回答

如何处理最新的星火随机森林的分类特征？

、、、、

在随机森林的Mllib版本中，有可能用参数categoricalFeaturesInfo指定具有名义特征(数值但仍然是绝对变量)的列，那么ML随机森林是什么呢？在用户指南中，它使用VectorIndexer来转换向量中的分类特征，但是它被写成“自动识别分类特征，并对它们进行索引” I发现，在随机森林中，数字索引无论如何都被视为连续的特性，因此建

浏览 1提问于2017-10-15得票数 6

回答已采纳

2回答

随机森林交叉验证K折叠与插入包R最佳auc

、、、、

我有一个相当严重的问题，我已经很多天没能解决了！我不明白插入包的训练控制功能是如何在R中工作的，我需要交叉验证(10倍)的随机森林，并认为插入包一次只能自动选择一个测试集( 10 %的数据集)，并验证随机林中的随机林型( 90%的数据集)。web上的所有教程都输入了列车功能的培训集和预测函数<

浏览 3提问于2020-12-14得票数 1

1回答

not NC无助于对我的混合连续/分类数据集进行过采样。

、、

当我使用SMOTE对四类分类问题中的三类进行过采样时，针对少数类的Prec、Recall和F1度量仍然很低(~3%)。我的数据集中有32个分类变量和30个连续变量。所有的分类变量已被转换为二进制列使用一热编码。此外，在进行过采样处理之前，我将使用Iterativeimputer计算所有缺失的值。关于分类器，我使用</em

浏览 0提问于2019-08-09得票数 0

1回答

如何在R中使用林模型包向变量和因子添加标签，以进行最终的林图表示？

、、

使用森林模型软件包的林地确实是多变量cox回归的好方法。但是，我在用原始变量和数据因素的名称替换最终表示标签(即变量:Age 2表示“年龄”；因子:0表示"<60"，1表示"≥60")时遇到了问题，≥对R编码的知识有限，但我尝试了expss包向变量和因素添加标签这是我的</e

浏览 0提问于2019-06-15得票数 0

1回答

在创建交叉验证索引时随机地重新排列数据点？

、、

以结构化的方式提取数据点，即对数据点进行排序。我将使用或Matlab中的进行分层交叉验证。如果我使用上面的函数，我还需要先随机地重新排列数据点(行)吗？

浏览 0提问于2016-03-11得票数 0

回答已采纳

1回答

数据科学学习资源在道路交通数据中的应用？

我的背景现在，我熟悉基本的推断统计和R包(plyr、dplyr、ggplot2等)。最近，我认识到机器学习算法也有助于通过监督&

浏览 0提问于2014-11-05得票数 2

1回答

如何在nnet中使用大小和衰减

、

我对神经网络世界还很陌生，所以我请求您的理解。我正在生成一些测试，因此我有一个关于参数size和decay的问题。我使用caret包和nnet方法。首先，这是使用插入符号使用nnet方法的最好方法吗？)，但我不明白如何在实践中使用它们。有人能帮上忙吗？

浏览 1提问于2017-02-23得票数 9

回答已采纳

1回答

通过电子邮件链接自动登录到.Net Mvc网站

、

我有一个网络应用程序，发送一个链接，以重定向到网站的每个用户的电子邮件。此链接应重定向到包含每个电子邮件的特定信息的页面。因此，我将不得不发送一个带有链接的查询字符串(每个电子邮件的特定id。另外，如何保护查询字符串参数？

浏览 19提问于2019-08-12得票数 1

回答已采纳

1回答

R的'randomForest‘库的'rfcv()’函数中的‘'mtry’

、、、、

我想使用交叉验证来确定在随机森林方法中尝试的变量数量。我不知道如何在rfcv()函数中使用mtry参数。我相信这可以通过randomForest包的rfcv()函数来完成。training_x,train

浏览 72提问于2020-05-05得票数 1

回答已采纳

1回答

有意义地解释BaseN编码的特征重要性

、、、

我有一个用户出生地的数据，特别是一个城市。因为我的数据集中有几千个城市，所以我寻找OneHot编码的替代方案，因为我不想为一列向我的数据集中添加数千列。我发现BaseN编码是OneHot的一个很好的替代方案，所以我选择了它。我用基数4对我的数据进行了编码，所以现在我使用的是City_0、City_1等，而不是字符串column

浏览 46提问于2021-10-03得票数 0

3回答

用似然估计编码分类变量

我正试图理解如何使用似然估计来编码分类变量，但到目前为止还没有取得什么成功。如有任何建议，将不胜感激。

浏览 0提问于2016-04-04得票数 27

7回答

在Python代码中运行"wc -l <filename>“

我想对巨大的文件(每个文件都有数十万行)进行10折交叉验证。我想在每次开始读取文件时执行一次"wc -l“，然后生成固定次数的随机数，每次将行号写入一个单独的文件。我使用的是：for i in files:如何在此处插入文件名。它是一个变量<

浏览 0提问于2011-06-29得票数 10

回答已采纳

2回答

基于决策树创建有监督的分类器

我需要R编程语言的帮助，我必须回答这个问题：) (a)基于决策树创建一个有监督的分类器。(b)随机分成训练集和测试集，以确定分类器的预测质量。我做了这段代码，但我只是得到了所有类别的相同结果。

浏览 0提问于2014-03-11得票数 0

1回答

随机森林分类器Matlab v/s Python

、、、、

我在Python和MATLAB中使用了随机森林分类器。在10棵树的集合中，我在Python中获得了80%的准确率，在MATLAB中仅获得了30%的准确率。即使MATLAB的随机森林长有100或200棵树，这种差异依然存在。这两种编程语言之间的差异可能是什么原因？

浏览 5提问于2015-05-22得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何自动排除predict.randomForest中未见的新因素水平？

如何替换包randomForest r中的引导步骤？

随机森林:k折交叉验证的OOB？

MATLAB交叉值函数向单元阵列抛出错误

选择二进制分类算法

如何处理最新的星火随机森林的分类特征？

随机森林交叉验证K折叠与插入包R最佳auc

not NC无助于对我的混合连续/分类数据集进行过采样。

如何在R中使用林模型包向变量和因子添加标签，以进行最终的林图表示？

在创建交叉验证索引时随机地重新排列数据点？

数据科学学习资源在道路交通数据中的应用？

如何在nnet中使用大小和衰减

通过电子邮件链接自动登录到.Net Mvc网站

R的'randomForest‘库的'rfcv()’函数中的‘'mtry’

有意义地解释BaseN编码的特征重要性

用似然估计编码分类变量

在Python代码中运行"wc -l <filename>“

基于决策树创建有监督的分类器

随机森林分类器Matlab v/s Python

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐