如何使用R拆分数据集，使一列中的值之和在子集之间大致相同？

文章/答案/技术大牛

发布

1回答

我在R中有一个数据集，如下所示： x <- structure(list(value = c(7.496, 11.073, 11.329, 9.282, 8.748, 12.515, 7.46, 9.189-107L), class = "data.frame") 我想做的是将数据集一分为二，这样我就有了两个子集，其中value列的和大致相等。也就是说，x$value的和是776.8，所以理

浏览 10提问于2020-07-06得票数 0

回答已采纳

2回答

在R中，如何将带有单个逗号分隔字段的一条记录转换为多条记录？

我在R工作。strsplit可以将条目拆分成一个值向量，但是如何使新记录包含所有相同的其他信

浏览 2提问于2011-05-04得票数 1

1回答

如何在SAS中构建相似的示例？

sas、sampling

我有一个大数据集(A)和一个小数据集(B)。它们都有相同的变量。如何从小数据集中提取样本，使每个变量的分布与大数据集中的分布大致相同？因

浏览 1提问于2022-09-05得票数 0

2回答

基于数据子集的精度评分泛化

classification、accuracy

我有一个多类的问题，我正在为它构建一个分类器。我有N个总数据点我想预测。如果我用n个有人能给我指一篇讨论这个问题的文章，或者提出一个研究的公式吗？

浏览 0提问于2018-09-27得票数 2

3回答

如何根据一个由逗号分隔的单元格具有多个值的观察结果，在r中子集数据？

r、subset

一般来说，我对R和编程都很陌生，所以请耐心点。我有一个非常大的数据集(100,000+观测)。我想根据某一列的值对此数据集进行子集。我面临的问题是，我感兴趣的列中的单个单元格可以同时接受多个值，所有值都由一个逗号分隔。R只返回名称列等于“Jon”的观测值。

浏览 3提问于2015-04-15得票数 1

回答已采纳

1回答

如何计算两个数据集分布之间的重叠

r、integration、montecarlo

Hi如何计算R中两列(或一列的两个子集)之间的重叠面积。请参阅以下示例数据： set.seed(1234) Data=factor(rep(c("D1", "D2"), each=200)), weight=round我想知道，如何给重叠区域着色并计算重叠系数(OVL)，类似于使用蒙特卡洛积分here所做<em

浏览 178提问于2020-11-18得票数 1

1回答

如何为LSTM准备数据

machine-learning、deep-learning、time-series、lstm、feature-selection

我很难思考如何准备我的数据集来训练LSTM。📷我的想法是，我需要分解每一行(示例)，如下所示:因此，在本例中</e

浏览 0提问于2021-02-26得票数 1

1回答

如何在R中使用函数式代码

我在使用R中的函数程序包时遇到了困难，我有两个数据集:一个具有物种频率，另一个列出了我的物种的功能特性。频率数据集有264种列在第一行中，27个站点列在第一列中，数据集中的所有值在0-1之间。功能特征数据集具有第一列列出的

浏览 4提问于2015-08-14得票数 0

回答已采纳

1回答

用几个月的时间构造实验/训练数据

regression、mlp、theory、experiments

我们使用全年的数据来预测一个特定的目标variable.The模型，就像数据- OneHot编码分类变量- MinMaxScaler - PCA (从15k中选择2000年组件的子集)- MLPRegressor但是，当我们进行ShuffleSplit交叉验证时，所有事情都很糟糕(r^2分数超过0.9，错误率也很低)，但是在现实生活中，他们不会使用相同格式的数据(

浏览 0提问于2020-02-12得票数 2

1回答

根据不同行中的值之间的差异拆分数据框

r、split

我不确定我是否以正确的方式处理这个问题，但我尝试做的是根据值之间的差异将数据帧分成组。例如，使用下面的数据，我希望对MIN列中的值之间的差值进行拆分，因此如果差值大于2，则创建一个拆分，在下面的示例中，我将得到4个拆分的数据集。MIN SE

浏览 0提问于2013-02-01得票数 3

回答已采纳

2回答

Hadoop中映射函数的输入分割

python、hadoop、hadoop-streaming、hadoop2、hadoop-partitioning

这是我在Hadoop中的第一个实现。在地图约简中，我试图实现概率数据集的算法。在我的数据集中，上一列将有一些id( dataset中唯一id的数量等于集群中的节点数)。我必须根据这个列值来划分数据集，集群中的每个节点都应该处理每一组记录。例如，如果集群中有三个节点，对于下面的数据</e

浏览 1提问于2014-09-08得票数 1

回答已采纳

1回答

对于这个范围很广的LSTM模型(使用Tensorflow)，什么是最好的标准化数据的方法？

javascript、tensorflow、machine-learning、normalization

我是机器学习的新手，所以我仍然试图把我的头脑围绕在概念上，如果我的问题可能不够简洁的话，请记住这一点。我正在建立一个带有LSTM层的Tensorflow JS模型，用于时间序列预测(RNN).所使用的数据集每隔几百毫秒(随机间隔)点击一次。然而，所产生的数据可以有非常广泛的范围，例如所收到的大多数数据将具有20、40、45等价值。然而，有时这一数值在极端情况下将

浏览 0提问于2020-01-26得票数 0

回答已采纳

3回答

将向量分割成块，使每个块的和近似为常数。

r、optimization、mathematical-optimization

我有一个大的数据帧，其中有超过10万条记录，其中的值是排序的。例如，考虑以下虚拟数据集我希望创建3组以上值(仅按顺序排列)，使每个组的和大致相同。因此，对于上述组，如果我决定将排序的df按以下3组划分，它们的和将是 1. 1 + 1 + 2

浏览 2提问于2017-09-26得票数 8

回答已采纳

2回答

数据集随机样本上超参数整定的缺点

machine-learning、bigdata、sampling、hyperparameter-tuning

我经常使用非常大的数据集，在构建机器学习模型时检查所有相关的超参数组合是不切实际的。我正在考虑随机采样数据集，然后使用该示例执行超参数调优。然后，我将使用所选的超参数使用完整的数据集来训练/测试模型。这种方法的缺点是什么？

浏览 0提问于2019-01-16得票数 1

回答已采纳

4回答

如何在R中找到两组数据的p值？

r、p-value

对于R来说，我有两个数据集，它们有相同的x轴值，但是y轴是不同的。我想找出两者之间的联系。当我用R通过散点图绘制ablines时，它给了我两条最适合的线，它似乎使一个数据集比另一个数据集更高--但我真的很想知道这两个数据集之间的p

浏览 5提问于2014-03-26得票数 0

回答已采纳

2回答

XGBOOST - train_test_split和手动拆分的不同结果

decision-trees、xgboost

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=43, stratify=y)📷splitValidationIndex = round(dataset.shape[0]*0.6) spli

浏览 0提问于2020-02-27得票数 5

回答已采纳

1回答

使用类编码进行预测？

python、data-science、random-forest、one-hot-encoding

我想知道，如果您不知道所有未来的特征值，是否可以使用类编码，特别是Python语言中的OneHotEncoder进行预测？然而，当我引入新数据时，编码器从未看到过一些位置和‘办公室’。因此，未创建新

浏览 4提问于2020-06-27得票数 0

1回答

取消堆叠另一列的R DATAFRAME基值

我是stackoverflow的新手。目前，我正在尝试拆分我使用R在线提取的大型数据集。如下所示，有两列，一列是ID号，另一列具有值，在本例中是概率值ID number; Probability 1 ;x NA ; 0.

浏览 4提问于2018-09-25得票数 0

3回答

如何正确地将我的数据集中起来

machine-learning、deep-learning、cnn、normalization

在WIKI-IMDB数据集上进行培训时，我计算了火车集输入的每个通道(RGB)的平均值，并从批处理中的每个示例中减去它(我还使用了相同的方法从我用于早期停止的验证集中减去它)。在完成WIKI上的网络培训之后，我想在另一个数据集上测试它，它是这项任务的基准。我正在测试的新数据<

浏览 0提问于2018-06-09得票数 2

2回答

VBA宏，它过滤数据集并将其拆分为新的工作簿。

performance、beginner、vba、excel

此VBA宏使用工作表(source_data_worksheet)过滤和拆分记录，该数据集中大约有十几个唯一的列(D)值，这些数据集将将保存到文件夹中的工作簿分离。有超过10,000条记录x18列，包括文本和数字(源工作表的文件大小约为1.3MB)。过滤变量的每个唯一值的记录数从100到5000以上不等。源数据集根据用于筛选&#

浏览 0提问于2015-08-20得票数 7

回答已采纳

点击加载更多