腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
pyspark
中
的
my
data
框
中
生成
6位
随机数
作为
新
列
、
我
的
数据
框
中有大量数据,现在我想尝试插入具有6位
随机数
的
新
列
。我已经尝试过lit(randrange(99999))不能像预期
的
那样工作,它产生
的
值小于6位数,并且对整个数据帧产生了静态值。
浏览 11
提问于2021-08-12
得票数 0
回答已采纳
1
回答
PySpark
:使用行
的
主键
作为
rand
的
种子
、
、
我正在尝试使用
PySpark
中
的
rand函数来
生成
一个
随机数
列。我希望rand函数把行
的
主键
作为
种子,这样数字就可以复制。但是,当我运行时:我知道错误了 如何使用行
中
的
值
作为
浏览 1
提问于2019-03-26
得票数 0
回答已采纳
2
回答
Pyspark
替换Spark dataframe
列
中
的
字符串
、
、
我想通过替换子字符串
在
Spark Dataframe列上执行一些基本
的
词干提取。做这件事最快
的
方法是什么?
在
我当前
的
用例
中
,我有一个想要规范化
的
地址列表。
浏览 0
提问于2016-05-05
得票数 54
回答已采纳
1
回答
有没有什么方法可以找到
pyspark
数据帧中有数据
的
列
数
、
我有一个有7
列
的
pyspark
数据
框
,我必须添加一个名为" sum“
的
新
列
,并计算在sum
列
中
包含数据(非null)
的
列
的
数量。Example a
data
frame in which yellow highlighted part is required answer
浏览 8
提问于2020-01-19
得票数 1
回答已采纳
1
回答
根据其他
列
替换
pyspark
列
、
、
在
我
的
"
data
“数据
框
中
,我有两
列
,”time_stamp“和”hour“。我想在缺少'time_stamp‘值
的
地方插入'hour’
列
值。我不想创建
新
列
,而是
在
'time_stamp‘
中
填充缺少
的
值 我想要做
的
是将这个pandas代码替换为
pyspark
代码:
data</em
浏览 8
提问于2019-03-21
得票数 0
回答已采纳
1
回答
在
pyspark
的
现有dataframe
中
添加
新
列
的
方法是什么?
、
、
、
我已经
在
现有的数据
框
中
添加了一个
新
列
,但它没有反映在数据帧
中
。customerDf.withColumn("fullname",expr("concat(firstname,'|',lastname)"))有没有办法向现有的dataframe添加一个
新
的
列
我们只有一个选择(熊猫
中
的
inplace=True)。我们<
浏览 4
提问于2021-01-26
得票数 0
1
回答
动态汇总和重命名
PySpark
中
的
聚合
列
、
、
、
、
我有一个
PySpark
数据帧(Df),其中包含50+
列
,其中包含一些动态
列
,这些
列
可能存在也可能不存在,但它们存在于一个单独
的
列表(Reqd_col)
中
。我想对列表(Reqd_col)
中
存在
的
PySpark
data
frame(df)
中
的
那些
列
进行汇总(按固定
列
‘region’分组)和汇总总和或计数,汇总
列
的
浏览 24
提问于2021-09-08
得票数 0
3
回答
Spark :如何将我
的
记录均匀地分布在所有分区
中
我有一个包含30条记录
的
RDD (键/值对:键是时间戳,值是JPEG字节数组) 我管理着30个执行者。当我使用rdd.repartition(30)时,它将我
的
rdd重新划分为30个分区,但一些分区获得2条记录,一些分区获得1条记录,而另一些则没有任何记录。有没有办法
在
Spark
中
我可以均匀地将我
的
记录分配到所有分区。
浏览 1
提问于2015-11-18
得票数 5
2
回答
如何编写嵌套
的
IF和RAND语句
、
我试图
在
R中
生成
一行随机二进制1和0
的
列
。其中$A$1 = 0.1。因此,如果任何
随机数
小于0.1,它将返回1。因此,结果将打印一个
列
,随机行为1和0。
data
$binary <- ifelse
浏览 3
提问于2019-12-27
得票数 1
回答已采纳
1
回答
如何选择
Pyspark
列
并将其
作为
新
行添加到数据
框
中
?
、
、
、
我想提取一
列
,并将其值
作为
新
行附加到数据
框
中
。例如,如果我有一个这样
的
数据
框
: ------------------------------------------------------------------------------------------------------------------------- 如何在
PySpar
浏览 18
提问于2019-12-29
得票数 0
回答已采纳
3
回答
如何从Scala Spark DataFrameReader csv
中
记录格式错误
的
行
、
、
、
的
文档表明,spark可以记录在读取.csv文件时检测到
的
错误行。 如何记录格式错误
的
行?是否可以获得包含格式错误
的
行
的
val或var?链接文档
中
的
选项是: maxMalformedLogPerPartition (默认值为10):设置Spark将为每个分区记录
的
最大格式错误行数。超过此数目的错误记录将被忽略
浏览 1
提问于2017-01-27
得票数 6
1
回答
如何在数组
中
循环哈希
、
、
、
“三次,每个答案都
作为
一个
新
的
散
列
存储在数据数组
中
。每个答案也应该有一个
新
的
随机数
生成
,并有一封电子邮件。
data
= Array.new() name = gets.chomp number
浏览 0
提问于2016-08-03
得票数 0
回答已采纳
2
回答
Pyspark
子字符串
在
UDF
中
不起作用
我试图
在
UDF中使用
Pyspark
子串函数,但没有成功。下面是我
的
代码片段: try: except Exception: else: return (
my
浏览 2
提问于2020-02-06
得票数 0
5
回答
更新spark
中
的
dataframe
列
、
、
、
、
查看
新
的
spark API,还不清楚是否有可能修改DataFrame
列
。df.ix[x,y] = new_value 编辑:合并下面所说
的
内容,您不能修改现有的数据格式,因为它是不可变
的
,但是您可以返回一个
新
的
数据格式,并进行所需
的
修改。如果只想根据条件替换
列
<em
浏览 12
提问于2015-03-17
得票数 95
回答已采纳
10
回答
如何将
新
列
添加到星火DataFrame (使用
PySpark
)?
、
、
、
、
我有一个火花DataFrame (使用
PySpark
1.5.1),并希望添加一个
新
的
列
。pd.DataFrame(randomed_hours, columns=['new_col']) 还得到了一个错误,使用如下: <em
浏览 13
提问于2015-11-12
得票数 179
回答已采纳
6
回答
Pyspark
:显示数据
框
列
的
直方图
、
、
、
在
pandas数据
框
中
,我使用以下代码来绘制
列
的
直方图:有没有什么东西可以
在
pyspark
数据帧
中
实现同样
的
目标?(我
在
Jupyter Notebook
中
)谢谢!
浏览 5
提问于2016-08-26
得票数 35
1
回答
如何在
pyspark
中
创建一个包含浮动
随机数
的
新
列
,但我希望始终
生成
相同
的
no?
、
我想在spark
中
创建一个包含浮点
随机数
的
新
列
,但我想始终
生成
相同
的
输出,即我想使用一个固定
的
种子值
作为
102101。
浏览 12
提问于2020-08-18
得票数 0
1
回答
使用
PySpark
sql函数
、
此函数:lg = F.log(5.2)返回: Py4JError: An error occurred while
浏览 8
提问于2017-03-07
得票数 0
回答已采纳
1
回答
火花放电柱上循环
的
优化
、
、
、
、
我不知道我
的
头衔是不是很清楚。我有一张
列
很多
的
桌子(一百多
列
)。我
的
一些
列
包含带括号
的
值,我需要将它们分解成几行。下面是一个可重复
的
例子:from
pyspark
.sql.functions import *from|[Basic School] | +----+---+-----------
浏览 5
提问于2022-06-15
得票数 1
回答已采纳
1
回答
如何管理Excel
中
包含
随机数
生成
的
多个单元格?
、
我是一名社会研究老师,目前正在为我
的
一堂课修改一个微观经济学游戏。我正在创建一个扩展表,供学生使用(笔记本电脑),跟踪各种资源,他们将收集和管理整个游戏。
在
游戏
的
某个阶段,学生收集虚拟国家所拥有的资源,但是他们必须将收集
的
资源乘以一个
随机数
,以反映来自“现实世界”
的
各种变量,这些变量可能对特定
的
资源收集产生积极或负面的影响。我已经知道了如何在Excel中格式化一个单元格来随机
生成
数字,但是我使用
的
是多个单元格,每个单元格都有自己<em
浏览 5
提问于2014-02-06
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
利用Python绘制弦图
一文读懂PySpark数据框
一文读懂 PySpark 数据框
一个Python大数据处理利器:PySpark入门指南
Python数据分析入门日记Day10:数据分析库Pandas:实现数据库查询操作
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券