腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
PySpark比例
分层抽样
"sampleBy“
、
问题:如果您使用PySpark的sampleBy实现比例
分层抽样
,这不是与随机抽样相同吗?我看过一些关于用特殊技巧做精确抽样的帖子。我会看看我是否可以用下面的方法回答我自己的帖子。注意:有一个sampleByKeyExact方法,但它在
Python
中不受支持,如果支持它,那么性能和缩放代价就不理想了。相关员额: <
浏览 7
提问于2021-10-08
得票数 1
回答已采纳
2
回答
如何使用
Python
进行随机分层采样(而不是训练/测试拆分)?
、
、
、
我正在寻找最好的方法来做随机
分层抽样
,如调查和民意调查。我不想做sklearn.model_selection.StratifiedShuffleSplit,因为我不是在做监督学习,我也没有目标。
Python
是我的主要语言。 感谢您的帮助
浏览 6
提问于2018-05-06
得票数 11
1
回答
分层抽样
大小因R组的不同而变化
、
我对R相当陌生,现在我被
分层抽样
困住了,当样本大小根据组发生变化时。 样本的大小因不同的群体或阶层而异:我采用
分层抽样
,但不知道样本的大小。
浏览 3
提问于2017-10-09
得票数 0
回答已采纳
1
回答
无k褶皱
分层抽样
、
、
我可以使用
分层抽样
与80%的训练20%的测试,分裂的数据在蟒蛇? 我已经对此进行了调查,这是为了进行九层
分层抽样
。
浏览 8
提问于2015-11-09
得票数 0
回答已采纳
1
回答
关于Knn和拆分验证的问题
、
、
、
我使用了一个70-30分割的
分层抽样
,K-nn在k= 20上给出了最好的精度。( 2)即使我使用
分层抽样
,那么k的这么大值是否可能是由于数据库中两个类的不均衡造成的呢?
浏览 0
提问于2018-05-12
得票数 1
回答已采纳
3
回答
如何对多标签多类分类进行
分层抽样
?
、
、
、
所以,我想自己去实施
分层抽样
。在此,我需要帮助破译问题的原因,并在多标签分类中实施
分层抽样
,以便在培训期间也能很好地适用于个别批次。
浏览 0
提问于2018-06-13
得票数 12
1
回答
数据分区中的类标签
、
、
假设将数据划分为训练/验证/测试集,以便进一步应用某种分类算法,而训练集并不包含完整数据集中存在的所有类标签--比如一些标签为"x“的记录只出现在验证集中,而不是在培训中。第二个问题是:用训练集具有所有现有标签的方式来处理上述问题并对数据进行分区是否是分区算法的共同之处?
浏览 2
提问于2013-12-07
得票数 2
回答已采纳
1
回答
从不同的输入集中获取相同分布的数据
、
、
、
我对ML很陌生。我正在尝试创建一个在多个列表之间平均分布的训练数据集,每个列表都有不同类型的数据。我该怎么做?我查看了GroupKMeansFold和StratifiedFold,但我并不完全理解它。我有三个清单a,b,c。 b = [b1, b2, b3.... b10000]我希望我的训练,测试,和val数据有70,15,15分裂。我还希望70%的培训数据在列表a、b、c之间均匀分布,与测试和val数据相同。 我希望训练数据有来自a、b和c的70
浏览 0
提问于2022-07-29
得票数 1
1
回答
理解numpy中的
分层抽样
、
、
作者希望根据收入中值进行
分层抽样
。他提供了创建收入类别属性的下一段代码。
浏览 3
提问于2019-04-06
得票数 0
1
回答
如何从数据集中获取保持相同类平衡的示例?
、
、
我正在处理数据集。它有两列。一种是对一两行的评论。第二是评级,在0到4之间,条目总数为8533。数据分布情况如下:
浏览 1
提问于2018-10-24
得票数 0
1
回答
提取归一化样本
python
、
、
我需要从10亿个数据库中提取1%的样本。这1%应该在一个数值变量上均匀分布。例如,如果数据集有1000行,而数值变量的值为1-10,则输出示例具有一个数据集,其中每个值的每一行都有一个数据集。
浏览 1
提问于2015-07-09
得票数 0
1
回答
分层抽样
变量选择
、
、
我试图在R中进行
分层抽样
,从我的数据中抽取样本,其中一个参数是组,它从保持数据集的相同初始分布取变量名到样本。 是否将响应作为分组变量包括在内是常见的,包括/排除它意味着什么?
浏览 0
提问于2017-11-08
得票数 2
2
回答
蟒蛇前科
分层抽样
、
、
上下文其目标是创建一个函数,使之能够从
分层抽样
中筛选出来,但使用考虑到的变量的某些比例,而不是原始数据集比例。":["foo" for i in range(175)],对于具有定义sample_size的传统
分层抽样
浏览 8
提问于2022-09-16
得票数 4
回答已采纳
2
回答
只读取一次文件进行分层采样
、
、
如果不知道每个子种群(阶层)的分布(或大小/概率),也不知道总体规模,是否可以只读取一次文件进行
分层抽样
?谢谢。 你好,林
浏览 3
提问于2016-06-07
得票数 1
回答已采纳
1
回答
分层抽样
、
、
如何使用
分层抽样
将数据集分成训练集和测试集,分别占原始数据集的70%和30%,以保留这些新集中的比例类大小。我想用WEKA来做这件事。
浏览 32
提问于2022-10-12
得票数 0
5
回答
如何通过
分层抽样
将图片文件夹拆分成测试/训练/验证集?
、
因为它们都在一个巨大的文件夹中,所以我想将它们分成training/test/validation集合;也许可以创建三个新文件夹,并基于某种
Python
脚本将图像移动到每个文件夹中。我想做
分层抽样
,这样我就可以在所有三个集合中保持类的百分比相同。 制作一个可以做到这一点的脚本的方法是什么?
浏览 4
提问于2018-10-31
得票数 12
3
回答
不平衡目标变量在橙色,我如何平衡它?
、
所以我想做一个预测模型来预测搅动。问题是,我认为我的混淆矩阵有点糟糕,因为我的目标变量非常不平衡:这主要导致了这一混淆矩阵:( logistic回归和决策树的相似值)。📷 有什么办法来平衡数据吗?我在橙色文件里找不到。
浏览 0
提问于2019-04-25
得票数 0
2
回答
随机森林-
Python
的
分层抽样
、
、
、
我正在构建一个随机森林分类模型,响应变量split为98%(False)-2%(True)。为此,我使用Scikit Learn的RandomForest分类器。
浏览 1
提问于2016-03-29
得票数 2
2
回答
使用多列的PySpark sampleBy
、
、
、
我想从PySpark上的数据框架中进行
分层抽样
。有一个sampleBy(col, fractions, seed=None)函数,但它似乎只使用一个列作为一个层。有没有办法使用多列作为一个地层?
浏览 5
提问于2017-05-09
得票数 5
回答已采纳
2
回答
分层抽样
、
我在R方面还是很新的,我有一个很容易回答的问题,我希望你能回答。我想画一个大小为100的样本,每个阶层按其人口规模的比例抽样(完整的GSS)。到目前为止,我的猜测是这样的:s=strata(GSS2010,c("region"),size=c(100), method="
浏览 10
提问于2015-02-24
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
【考点92】抽样方法
考前必看:A-level数学常考知识点随机抽样方法大揭秘!
扎心实战案例:麻雀虽小,五脏俱全
高考文科数学概率与统计考点
《数据分析与数据挖掘实战》学习笔记一
热门
标签
更多标签
云服务器
ICP备案
对象存储
即时通信 IM
实时音视频
活动推荐
运营活动
广告
关闭
领券