腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何在
Pyspark
中
对数据帧进行过
采样
?
、
如何在
pyspark
中
对数据帧进行过
采样
?它只对df
的
一小部分进行
采样
,所以不能过
采样
。
浏览 4
提问于2018-03-13
得票数 3
2
回答
使用
pyspark
进行加权
采样
、
、
、
我在使用
PySpark
的
spark上有一个不平衡
的
数据帧。我想对其进行重新
采样
,使其达到平衡。我只在
PySpark
中找到了示例函数但是我想在Python中用单位体积
的
权重来
采样
数据帧,我可以这样做有没有什么方法可以用
PySpark
做同样
的
事情呢?
浏览 2
提问于2018-02-01
得票数 5
2
回答
K-表示在
PySpark
中
的
x
、
、
我正试图在
PySpark
中
应用k-意思是$颇具价值
的
集群。有办法在k均值函数中使用过
采样
因子吗?
浏览 0
提问于2018-07-08
得票数 4
2
回答
Pyspark
中
的
采样
、
、
、
Pyspark
新手 我正在从HDFS加载一个JSON文件。它从日志中一次读取一个数据。假设从每个日志中提取date、config1d并将其加载到JSON文件
中
。有没有一种方法可以使用随机抽样只加载5%或10%
的
数据,而不加载内存
中
的
整个JSON文件。因为加载整个JSON文件对我来说需要一个多小时。 如果有更多
的
问题,请告诉我
浏览 30
提问于2020-01-11
得票数 0
1
回答
PySpark
流水线
中
的
交叉验证过
采样
、
、
、
、
我正在一个
PySpark
二进制分类管道上工作,我想在其中使用过
采样
阶段执行CrossValidation (我
的
数据集不平衡)。问题是过
采样
阶段也是在测试数据集上执行
的
。我查看了spark文档和源代码,没有办法跳过PipelineModel
中
的
一个阶段。我
的
解决方案是覆盖原始类
的
_transform方法,以便跳过卵子
采样
阶段。当适合我
的
源代码
中
的
管道时,这可以很好
浏览 1
提问于2019-11-16
得票数 1
2
回答
PySpark
中
的
系统
采样
、
我对
PySpark
非常陌生,我一直在努力寻找我正在寻找
的
答案。 我有大量
的
家庭样本,我想进行系统
的
抽样。就像真正
的
系统抽样一样,我想从一个随机
的
起点开始,然后定期选择一个家庭(例如每50个家庭)。我研究了sample()和sampleBy(),但我不认为这些正是我所需要
的
。有人能给我什么建议吗?非常感谢您
的
帮助!
浏览 1
提问于2022-04-08
得票数 0
回答已采纳
1
回答
pyspark
对每个目标变量
的
类进行过
采样
、
、
、
、
我想知道是否有任何方法可以使用
pyspark
对数据进行过
采样
。 我有10个类
的
目标变量
的
数据集。transformed_04_more_rows.unionAll(transformed_03_more_rows).unionAll(transformed_02_more_rows) 我正在手动检查
采样
值对于ex,如果第四个类有2000行,第二个类有10行,则手动检查并相应地提供值16,12,如上面的代码所示 请原谅我提到
的
代码是不完整
的
。只是为了给出我所提出
的
浏览 121
提问于2020-07-03
得票数 0
1
回答
使用
PySpark
随机打乱/重新排序RDD对象
的
元素
、
、
、
我有一个由list对象组成
的
RDD对象(示例:[1,2,3,4,5,6] )。我需要对其进行
采样
,并为此使用sample()
pyspark
函数,但它看起来检索
的
是第一个元素,而不是随机
采样
。我
的
想法是将元素打乱,然后使用sample()函数,但我无法进行随机化。
浏览 120
提问于2021-04-15
得票数 0
3
回答
使用
pyspark
/ spark对大型分布式数据集进行
采样
、
我在hdfs中有一个文件,它分布在集群
中
的
所有节点上。>>> textFile = sc.textFile("/user/data/myfiles/*") 然后我想简单地取一个样本..。关于Spark最酷
的
事情是有像takeSample这样
的
命令,不幸
的
是我认为我做错了什
浏览 1
提问于2014-07-17
得票数 16
回答已采纳
1
回答
有没有等同于熊猫TimeGrouper
的
PySpark
?
、
、
、
'duration_seconds'].sum()`
浏览 31
提问于2019-10-07
得票数 2
3
回答
如何使用sample()函数执行上
采样
(py-spark)
、
、
、
我正在研究一个二进制分类机器学习问题,并且我正在尝试平衡训练集,因为我有一个不平衡
的
目标类变量。我正在使用Py-Spark来构建模型。2926上面的代码执行欠
采样
但是,我不确定如何执行上
采样
。我还尝试使用示例函数,如下所示: train_up = train_initial.sample(True, 10.0, seed = 2018
浏览 0
提问于2018-11-13
得票数 0
2
回答
Pyspark
中
的
过
采样
或SMOTE
、
、
、
但由于数据不足以获得较高
的
准确率。因此,我希望对所有类应用过
采样
,以使多数类本身获得更高
的
计数,然后相应地少数类。这在
PySpark
中
是可能
的
吗?
浏览 1
提问于2018-12-27
得票数 6
1
回答
忽略JSON读取器
中
的
火花抽样选项?
、
、
在以下两个示例
中
,运行
的
任务数和相应
的
运行时间意味着抽样选项没有影响,因为它们与没有任何抽样选项
的
作业类似:我知道显式模式对性能是最好
的
浏览 0
提问于2019-06-12
得票数 5
回答已采纳
2
回答
优化
PySpark
与pandas DataFrames之间
的
转换
、
、
、
、
我有一个13M行
的
pyspark
数据帧,我想把它转换成pandas数据帧。然后,将根据其他参数以不同
的
频率(例如1秒、1分钟、10分钟)对数据帧进行重新
采样
以进行进一步分析。从文献[,]
中
,我发现使用以下任何一行都可以加快
pyspark
到pandas数据帧之间
的
转换:spar
浏览 11
提问于2021-11-19
得票数 0
1
回答
pyspqrk sql配置单元表
中
存在错误数据
、
、
、
、
我正在尝试使用
Pyspark
中
包含25亿条记录
的
Hive表。我假设表中有一些格式错误
的
或其他“坏”数据。我使用
的
是spark版本1.6.2和python版本2.6.6:from
pyspark
.sql import但是,如果我使用以下命令对表进行
采样
:我得到了一个大约有22
浏览 1
提问于2017-01-28
得票数 1
1
回答
如何在Scala
中
以分数图
的
形式获取不同
的
值?
、
、
我想在Scala
中
对我
的
数据帧进行分层
采样
。我
的
dataframe只有一列,我想为它形成一个分数映射。我可以在
pyspark
中
实现,但在Scala中会出错。以下是我在Scala
中
尝试
的
内容:val sampled_df = pqdf.stat.sampleBy("vi
浏览 87
提问于2018-06-07
得票数 0
4
回答
PySpark
:如何重
采样
频率
、
、
、
想象一个由变量
的
值观察组成
的
星火数据。每个观察都有一个特定
的
时间戳,不同变量之间
的
时间戳并不相同。这是因为时间戳是在变量
的
值更改并被记录时生成
的
。00:00 0#852-YF-007 2016-05-09 23:58:00 0
浏览 6
提问于2016-09-01
得票数 14
回答已采纳
1
回答
XGBClassifier适合
pyspark
数据帧吗?
、
是否可以将
pyspark
数据帧传递给XGBClassifer,如下所示:model1 = XGBClassifier()如果不是,那么将
pyspark
dataframe应用到xgboost
的
最佳方式是什么?
浏览 0
提问于2019-12-20
得票数 0
1
回答
使用Python或
pyspark
读取基于位置
的
CSV文件
、
、
我是Python和它
的
库
pyspark
的
新手,我需要做一些POC,我需要读取来自上游
的
CSV文件,我收到
的
CSV文件没有任何分隔符,它将是一个基于位置
的
文件。我们可以在Oracle控制文件
中
这样做,在那里我们可以定义每一列
的
位置,并检索与在
pyspark
中
相同
的
值。 我正在使用Apache Spark来处理我
的
Pyspark
或python代码。来自TXT文件<em
浏览 16
提问于2019-11-12
得票数 1
2
回答
谷歌云-什么产品
的
时间序列数据清洗?
、
、
、
、
我有大约20 in
的
时间序列数据存储在大查询
中
。我目前
的
管道是:然后我在桶中下载了一个文件
的
子集: 既然数据已经在桶里了,我想知道
浏览 3
提问于2018-04-13
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
从图模型中采样
编程字典-详细的PySpark环境设置
核酸检测中温暖的色彩,新型采样亭“小彩盒”
深度学习中的结构化概率模型 - 从图模型中采样篇
0483-如何指定PySpark的Python运行环境
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券