用于绑定r中整数数据的分类变量

文章/答案/技术大牛

发布

1回答

我想创建一个分类变量，将每个值分配给一个bin。因此，对于像这样的数据： x <- floor(runif(50,0,40)) 这些类别包括： g1 <- (x >= 0) & (x<= 10)g3 <- (x >= 21) & (x<= 30) g4 <- (x>= 31) 然后，变量应该检查类别的x，并将每个观察值分配给一个bin。有没有办法在单个

浏览 19提问于2020-09-10得票数 0

回答已采纳

2回答

用scikit对连续变量和范畴变量(整型)进行特征预处理-学习

python、pandas、machine-learning、scikit-learn、categorical-data

主要目标如下：另一方面，StandardScaler会缩放基于整数的分类变量，这也不是我们想要的。由

浏览 4提问于2017-04-22得票数 18

2回答

为什么这是我的线性模型的输出，我如何修复它？

我试图使用R建立一个多变量线性规划模型，但该模型不断地在输出中创建新的变量。本质上，我试图找到空气质量与不同因素之间的相关性，例如人口，一天中的时间，天气读数，以及其他一些因素。在本例中，我在几个月的时间内查看了多个不同的传感器位置。我有关于实际AQI的数据，天气数据，并假设传感器周围的人口不会随着时间的推移而变化(这可能是我

浏览 34提问于2019-11-11得票数 0

回答已采纳

1回答

R中的randomForest与因子变量

r、classification、random-forest、categorical-data

我有一个数据集，有一些连续变量，一些序数变量和一些分类定性变量。我想使用一个随机森林分类器(我有一个分类结果)，但我不知道如何处理序号和分类特性，它们目前都编码为factor。我希望序数变量被视为数字，而定性变量则将每个级别作为单独的虚拟变量。R的randomForest通常如何处理factor特性？我是否应该将定性变量转换为

浏览 1提问于2022-06-24得票数 0

回答已采纳

3回答

对非常庞大的数据集进行评分

database、r、hadoop、bigdata、scoring

我使用R/Python在1-2%的样本数据上建立了一个合适的机器学习分类器，我对准确率指标(精确度、召回率和F_score)相当满意。现在我想给一个有7000万行/实例的大型数据库打分，这个数据库驻留在Hadoop/Hive环境中，分类器是用R编写的。有关数据集的信息： 7000万X 40个变量(列

浏览 3提问于2015-04-25得票数 3

1回答

： med.fit <- glmer(M ~ treat + control + (1|subject_id) ,family = binomial(link = "logit"), data = R1out.fit <- glmer(Y ~ M+ treat + control+ (1 + M|subject_id),family = binomial(link = "logit"), data = R1out.fit, treat = "treat", mediator = &qu

浏览 0提问于2018-09-23得票数 0

1回答

Scikit学习中的分类数据转换

python、numpy、machine-learning、scikit-learn

我有一个4000万×22的整数数据数组，用于分类任务。大多数功能都是分类数据，使用不同的整数值来表示不同的类别。例如，在列“Color”中，0表示蓝色，1表示红色，依此类推。我已经使用LabelEncoder对数据进行了预处理。是否有必要将这些数据纳入SK-learn中的任何分类模型？我试图将数据

浏览 5提问于2015-01-09得票数 2

回答已采纳

2回答

R中具有整数值的光栅

r、spatial、raster

部分原因是我想限制内存的使用，所以我想要创建一个带有整数值的光栅。我正在使用R中的包光栅，虽然我似乎能够创建一个带有整数值的栅格，但提取的值是数字的。下面是一个简单的例子。library(raster)r <- raster(nrow=10,ncol=10)<em

浏览 0提问于2014-02-19得票数 1

回答已采纳

1回答

LabelEncoding a Dataframe

dataframe

我有一个包含整数变量和分类变量的数据。是对所有变量(整数变量和范畴变量)进行标记编码，还是只对分类功能进行编码？

浏览 0提问于2019-01-31得票数 -1

回答已采纳

1回答

生成序数数据

python、dataset、statistics、sampling

我想要生成的合成数据是顺序的，即有序的，在Python中。但我该怎么做呢？在生成序数数据和分类数据方面有什么不同？我正在阅读Valera和Ghahramani的论文“数据集中变量的统计类型的自动发现”。在这篇文章中，他们写道：“我们通过抽样一个带有$R$类别的多项变量来解释分类数据</

浏览 0提问于2018-06-18得票数 0

回答已采纳

1回答

随机林的混合预测类型

machine-learning、classification、random-forest、feature-selection

我试图建立一个使用随机森林的分类模型，用于一个包含5个预测变量的数据集。两个预测变量是连续型的，一个可以是[0, 1000]区间中的实值，另一个可以是[-10, 10]的实值；一个预测变量是[10000, 15000]的整数值。另外，剩下的两个预测变量具有分类值，即{ A, B, C, D, E F}和{NY,

浏览 1提问于2014-08-18得票数 1

回答已采纳

1回答

如何处理其中包含大量层次的分类特征

r、categorical-data

我正在研究一个具有维数的R中的数据集[1] 15844717 11一个特点是在15844717中有273596(随机整数用作id)唯一值。第二个特征是在15844717中有884353(随机整数用作id)唯一值。我的困惑是，是否将它们转化为因素，因为具有大量水平的分类变量在建模时会产生问

浏览 4提问于2017-08-09得票数 1

1回答

使用ggplot2创建多个条形图时缺少分组变量

r、ggplot2、bar-chart

我是R和ggplot2的新手，我正努力思考如何在彼此之间创建多个条形文字。我有一个包含5个不同变量的数据集： "DepressionSymptoms"，分类:无、怀疑、轻、中、重度<代码>H 119<//代码>变异级别:无、怀疑、轻、中、重度<代码>H 214/代码><代码>变量5：“SomaticSymptoms”，分类<

浏览 2提问于2020-05-24得票数 0

回答已采纳

2回答

缺失值的确定与范畴值的处理

python、scikit-learn、pandas、categorical-data、data-imputation

我有一个数据集(1000万行，55列)，其中有许多缺失的值。我需要使用其他不缺失的值来预测这些值，即用不属于NaN的东西替换它们。平均值和中位数不是解决办法。我试图对其他方法进行研究，但这些方法都不起作用，因为我有很多分类变量。我还尝试使用一个热编码将分类变量转换为整数，但我不确定这在我的情况下是否是一个解决方案，因为只有一个分类列，我将得到600个新列。如果我对其他分类专栏也这么

浏览 0提问于2017-05-23得票数 4

3回答

包含分类变量和连续变量的数据集的类PCA分析

dataset、statistics

我有一个包含一个分类变量和多个连续变量的数据集。分类变量被编码为离散整数，而连续变量只是浮动的范围。我相信，我的数据集中的方差几乎完全可以用单一的范畴变量和许多连续变量中的一个来描述。为了证明这一点，我有兴趣使用PCA，但我不确定在考虑分类数据</e

浏览 0提问于2018-09-19得票数 1

1回答

用scikit进行平均降低精度的精度评分

python、machine-learning、statistics、scikit-learn、classification

我一直在运行‘平均下降精度’度量，这个显示了这个度量：如果我换不换的话这里有人吗。谢谢你的帮助！以下是网站的代码，以防您懒得点击:) from sklearn

浏览 4提问于2015-07-10得票数 3

回答已采纳

2回答

如何对数据挖掘过程中的数据进行分类？

r、apriori、categorical-data

我正在使用apriori函数执行数据挖掘过程。此函数仅适用于分类数据，没有值，但仅适用于文本。我的数据集满足了这些要求，因为我有五个类别变量，没有数值，只有文本(因此变量‘性别’被分类为‘女性’和‘男性’)apriori(data) column(s) 1, 2, 3, 4,

浏览 2提问于2013-11-23得票数 4

2回答

基于MATLAB R2015a的支持向量机多分类

matlab、classification、svm、matlab-guide

我尝试使用MATLAB R2015a分类工具箱对我的4个类进行分类。我导入了数据集，并选择了一个高斯核来训练分类器。;54.49 2;48.82 2;52.00 2;49.79 2;22.46 3;30.38 3;然后，我将它导出到我的工作区中，以便与我的新测试数据一起使用它，但是当我想在工作空间中使用它时，会出现以下错误：已经在基本工作区中

浏览 1提问于2015-09-24得票数 0

1回答

如何处理预测变量，这些变量都是绝对的，但目标变量是整数？

predictive-modeling

我有时间(小时、日等)的历史数据。和以整数格式链接到事件数的区域代码。我开始在R中建立一个模型来预测给定时间和区域的事件数。我在R中探索了支持向量机( SVM )，但似乎它是不可能有分类变量的。在这里可能有用的任何其他方法。谢谢你的回应。

浏览 0提问于2016-05-07得票数 0

1回答

如何为R中的分类数据生成自举置信区间？

r、confidence-interval

我正在尝试为分类数据的R中的正态分布数据建立简单的95% bootrapped置信区间。常规的Bootstrap Confidence Intervals in Rboot.ci似乎不适用于分类变量 df <- data.frame( dose = rep(c("10","20","30

浏览 12提问于2020-10-21得票数 0

回答已采纳

点击加载更多