腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9153)
视频
沙龙
1
回答
pyspark
withcolumn
条件
基于
另一个
数据
帧
、
、
我有以下输入:valueX valueY 4 3
数据
帧
B:dataframeA.join(dataframeB).
withColumn
("isIn",sf.when((dataframeA["valueX"] > dataframeB["startX
浏览 27
提问于2021-06-04
得票数 0
1
回答
在
pyspark
中创建
数据
字典
、
、
、
我正在面对挑战,当我添加动态列在
pyspark
中。/// i.e dataframe which satisfy this condition i am able to do it in pandas but facing challenge in
pyspark
dict_of_YearMonth[key_name] 然后,我想把所有的
数据
串接到一个电火花
数据
,我可以这样做熊猫如下所示,但我需要在火星雨。snapshots=pd.concat([dic
浏览 1
提问于2017-03-09
得票数 0
回答已采纳
1
回答
Spark窗口函数和获取每个分区的每列的第一个和最后一个值(窗口聚合)
、
、
假设我有一个巨大的
数据
集,我使用partitionBy('id')。假设id对于一个人是唯一的,那么每个id可能有n行,目标是将其减少到1。基本上,聚合以使id不同。
浏览 72
提问于2020-10-02
得票数 0
0
回答
PySpark
数据
帧
:根据
条件
同时更改两列
、
、
我想知道是否有一种方法可以同时更改
PySpark
数据
帧
的两列(或更多列)。现在我正在使用
withColumn
,但我不知道这是否意味着
条件
将被检查两次(对于大型
数据
帧
来说,这可能太昂贵了)。is_special_id_udf(col("id"))) & should_hide_response_udf(col("response_created")) new_df = df.
withColumn</em
浏览 2
提问于2017-06-21
得票数 1
回答已采纳
1
回答
基于
类方法创建
PySpark
数据
框列
、
、
、
、
get_email(self): return emaildf = data.
withColumn
('email', (F.udf(lambda
浏览 6
提问于2020-11-12
得票数 0
回答已采纳
1
回答
在
pyspark
的现有dataframe中添加新列的方法是什么?
、
、
、
我已经在现有的
数据
框中添加了一个新列,但它没有反映在
数据
帧
中。customerDf.
withColumn
("fullname",expr("concat(firstname,'|',lastname)")) test = customerDf
浏览 4
提问于2021-01-26
得票数 0
2
回答
使用lower函数在文本清理中将
pyspark
dataframe中的单个列中的值转换为小写
、
尝试使用.lower函数将
pyspark
dataframe单列中的值转换为小写,以便进行文本清理f.lower(f.col(col
浏览 0
提问于2019-02-21
得票数 0
3
回答
如何在
pyspark
.sql.functions.when()中使用多个
条件
?
、
我有一个包含几列的
数据
帧
。现在我想从另外两个列派生一个新列:new_df = df.
withColumn
("new_col", F.when(df[otherwise(0))py4j.Py4JException: Method and([class java.lang.Double]) does not existnew_df = df.<e
浏览 0
提问于2015-10-15
得票数 34
回答已采纳
1
回答
无法从spark dataframe导出
数据
、
数据
帧
看起来没问题。我将数组转换为字符串。使用from
pyspark
.sql.types import StringType def array_to_string.
withColumn
('embeddings', array_to_string_udf(result["embeddings"])).
withColumn
('ner_chunk',
浏览 7
提问于2021-07-29
得票数 1
2
回答
在spark scala中编写
withcolumn
的泛型函数
、
、
、
我正在使用下面的write列
条件
创建一个新的
数据
帧
df。我将下面的write列
条件
用于其他
数据
帧
too.How,将这些write列
条件
写成一个泛型函数,并在所有
数据
帧
中访问它。val df = sampledf.
withColumn
("concat", concat($"columna", $"columnb", $"columnc"))
浏览 24
提问于2020-07-27
得票数 1
1
回答
如何在
pyspark
中迭代dataframe多列?
、
、
假设我有一个只有一列的
数据
帧
df,其中df.show()是|a,b,c,d,....| |a,b,c,d,....|,所以我想得到一个df1,其中df1.show()是|a|b|c.....,所以简而言之,我想把一个只有一列的
数据
帧
分解成一个有多列的
数据
帧
。所以,我有了这样的想法df=df.
withColumn<
浏览 1
提问于2020-06-04
得票数 1
2
回答
替换
PySpark
列中的最后两个字符
、
在带有包含
基于
日期的整数的列(如20190200,20180900)的spark dataframe中,我希望将所有以00结尾的
数据
帧
替换为01结尾的那些整数,这样之后我就可以将它们转换为可读的时间戳我有以下代码: from
pyspark
.sql.types import StringType udf = sf.udf(lambdax: x.replace("00","01"), String
浏览 14
提问于2020-06-27
得票数 1
回答已采纳
1
回答
(将列表添加到列dataframe
pyspark
)
、
、
、
如果我已经存在
数据
帧
,且我想要向
数据
框中添加新列sqlContext = SQLContext(sc)rdd2 = sc.parallelize(li2)test_df2 = test_df.
withColumn
向列dataframe
pyspark
添加列表
浏览 0
提问于2020-10-05
得票数 1
1
回答
使用
pyspark
中的regex将数字添加到字符串中最后一个字符之前
、
、
、
、
我需要使用
pyspark
在字符串的最后一个字符(即在spark
数据
帧
的列中)之前添加相同的数字。例如,假设我有字符串2020_week4或2021_week5。更大的背景是,替换是个位数周的
条件
-only。所以大概是这样的: df.
withColumn
('week', when(len(col("week")) == 10, regexp_replace(week, REGEX_PATTERN, "0")=\d$)", "$0
浏览 35
提问于2021-01-26
得票数 0
回答已采纳
1
回答
如何分解
pyspark
dataframe中的map类型?
、
、
我有一个
数据
帧
import os, sysimport pyodbc from
pyspark
.sql.functions import explode, col, from_json, litfrom
pyspark<
浏览 28
提问于2020-10-06
得票数 0
回答已采纳
2
回答
按创建日期获取不同的行
、
、
我正在使用这样的
数据
帧
: DeviceNumber | CreationDate | Name1002 | 1.1.2019 | Lamp 我使用databricks和
pyspark
我如何减少
数据
帧
,使我每个"DeviceNumber“只有一行,并且这将是具有最高"CreationDate”
浏览 14
提问于2019-05-16
得票数 0
回答已采纳
1
回答
使用
Pyspark
处理具有不同JSON模式行的单个
数据
集
、
、
、
、
我使用的是
PySpark
,我需要处理附加到单个
数据
帧
中的日志文件。大多数列看起来都是正常的,但其中一列在{}中有JSON字符串。但我不知道在这里处理
数据
的最好方法是什么。 示例: ? 这个表稍后将帮助我以所需的方式聚合事件。 我尝试使用函数
withColumn
和from_json。它成功地在单个列中工作: from
pyspark
.sql.types import *
浏览 15
提问于2021-09-01
得票数 0
1
回答
不能将列转换为bool
、
、
我正在尝试使用时间更新
PySpark
数据
帧
中的列。我正在使用数组检查多个
条件
。我得到了错误'Cannot convert column into bool'。我假设这是因为我使用in来检查一个值列表。代码如下neg = ['no', 'n', 'N', '
浏览 1
提问于2018-05-23
得票数 0
回答已采纳
1
回答
将Numpy数组追加到
Pyspark
Dataframe中
、
、
、
、
我需要在
PySpark
数据
帧
中追加一个NumPy数组。collect(), 117310.979016494) 输出是一个对象numpy.ndarray,如下面的[True, False, True] 接下来,我尝试附加一个Numpy数组,该数组以前是用同一个
PySpark
.Dataframe的
数据
计算得出的。train4 = train3.
withColumn
('var38mc',col(df_var38mc)) 但是我得到了这个错误: AttributeError
浏览 7
提问于2020-12-08
得票数 0
回答已采纳
1
回答
如何在没有直接连接列的两个
数据
帧
之间找到最匹配的行?
、
、
、
、
对于
pyspark
数据
帧
中的每一组坐标,我需要在
另一个
数据
帧
中找到最接近的一组坐标 我有一个包含坐标
数据
的
pyspark
dataframe (dataframe a): +---------86.77030181884766| | 34.9428028| -97.8180194| 和
另一个
类似的10.
浏览 22
提问于2020-07-20
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何从Pandas迁移到Spark?这8个问答解决你所有疑问
一文读懂PySpark数据框
一文读懂 PySpark 数据框
如何在CDH集群上部署Python3运行环境及运行Python作业
pyspark 安装
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券