腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9153)
视频
沙龙
1
回答
pyspark
withcolumn
条件
基于
另一个
数据
帧
、
、
我有以下输入:valueX valueY 4 3
数据
帧
B:dataframeA.join(dataframeB).
withColumn
("isIn",sf.when((dataframeA["valueX"] > dataframeB["startX
浏览 27
提问于2021-06-04
得票数 0
1
回答
在
pyspark
中创建
数据
字典
、
、
、
我正在面对挑战,当我添加动态列在
pyspark
中。/// i.e dataframe which satisfy this condition i am able to do it in pandas but facing challenge in
pyspark
dict_of_YearMonth[key_name] 然后,我想把所有的
数据
串接到一个电火花
数据
,我可以这样做熊猫如下所示,但我需要在火星雨。snapshots=pd.concat([dic
浏览 1
提问于2017-03-09
得票数 0
回答已采纳
1
回答
Spark窗口函数和获取每个分区的每列的第一个和最后一个值(窗口聚合)
、
、
假设我有一个巨大的
数据
集,我使用partitionBy('id')。假设id对于一个人是唯一的,那么每个id可能有n行,目标是将其减少到1。基本上,聚合以使id不同。
浏览 72
提问于2020-10-02
得票数 0
0
回答
PySpark
数据
帧
:根据
条件
同时更改两列
、
、
我想知道是否有一种方法可以同时更改
PySpark
数据
帧
的两列(或更多列)。现在我正在使用
withColumn
,但我不知道这是否意味着
条件
将被检查两次(对于大型
数据
帧
来说,这可能太昂贵了)。is_special_id_udf(col("id"))) & should_hide_response_udf(col("response_created")) new_df = df.
withColumn</em
浏览 2
提问于2017-06-21
得票数 1
回答已采纳
1
回答
基于
类方法创建
PySpark
数据
框列
、
、
、
、
get_email(self): return emaildf = data.
withColumn
('email', (F.udf(lambda
浏览 6
提问于2020-11-12
得票数 0
回答已采纳
1
回答
在
pyspark
的现有dataframe中添加新列的方法是什么?
、
、
、
我已经在现有的
数据
框中添加了一个新列,但它没有反映在
数据
帧
中。customerDf.
withColumn
("fullname",expr("concat(firstname,'|',lastname)")) test = customerDf
浏览 4
提问于2021-01-26
得票数 0
2
回答
使用lower函数在文本清理中将
pyspark
dataframe中的单个列中的值转换为小写
、
尝试使用.lower函数将
pyspark
dataframe单列中的值转换为小写,以便进行文本清理f.lower(f.col(col
浏览 0
提问于2019-02-21
得票数 0
3
回答
如何在
pyspark
.sql.functions.when()中使用多个
条件
?
、
我有一个包含几列的
数据
帧
。现在我想从另外两个列派生一个新列:new_df = df.
withColumn
("new_col", F.when(df[otherwise(0))py4j.Py4JException: Method and([class java.lang.Double]) does not existnew_df = df.<e
浏览 0
提问于2015-10-15
得票数 34
回答已采纳
1
回答
无法从spark dataframe导出
数据
、
数据
帧
看起来没问题。我将数组转换为字符串。使用from
pyspark
.sql.types import StringType def array_to_string.
withColumn
('embeddings', array_to_string_udf(result["embeddings"])).
withColumn
('ner_chunk',
浏览 7
提问于2021-07-29
得票数 1
2
回答
在spark scala中编写
withcolumn
的泛型函数
、
、
、
我正在使用下面的write列
条件
创建一个新的
数据
帧
df。我将下面的write列
条件
用于其他
数据
帧
too.How,将这些write列
条件
写成一个泛型函数,并在所有
数据
帧
中访问它。val df = sampledf.
withColumn
("concat", concat($"columna", $"columnb", $"columnc"))
浏览 24
提问于2020-07-27
得票数 1
1
回答
如何在
pyspark
中迭代dataframe多列?
、
、
假设我有一个只有一列的
数据
帧
df,其中df.show()是|a,b,c,d,....| |a,b,c,d,....|,所以我想得到一个df1,其中df1.show()是|a|b|c.....,所以简而言之,我想把一个只有一列的
数据
帧
分解成一个有多列的
数据
帧
。所以,我有了这样的想法df=df.
withColumn<
浏览 1
提问于2020-06-04
得票数 1
2
回答
替换
PySpark
列中的最后两个字符
、
在带有包含
基于
日期的整数的列(如20190200,20180900)的spark dataframe中,我希望将所有以00结尾的
数据
帧
替换为01结尾的那些整数,这样之后我就可以将它们转换为可读的时间戳我有以下代码: from
pyspark
.sql.types import StringType udf = sf.udf(lambdax: x.replace("00","01"), String
浏览 14
提问于2020-06-27
得票数 1
回答已采纳
1
回答
(将列表添加到列dataframe
pyspark
)
、
、
、
如果我已经存在
数据
帧
,且我想要向
数据
框中添加新列sqlContext = SQLContext(sc)rdd2 = sc.parallelize(li2)test_df2 = test_df.
withColumn
向列dataframe
pyspark
添加列表
浏览 0
提问于2020-10-05
得票数 1
1
回答
使用
pyspark
中的regex将数字添加到字符串中最后一个字符之前
、
、
、
、
我需要使用
pyspark
在字符串的最后一个字符(即在spark
数据
帧
的列中)之前添加相同的数字。例如,假设我有字符串2020_week4或2021_week5。更大的背景是,替换是个位数周的
条件
-only。所以大概是这样的: df.
withColumn
('week', when(len(col("week")) == 10, regexp_replace(week, REGEX_PATTERN, "0")=\d$)", "$0
浏览 35
提问于2021-01-26
得票数 0
回答已采纳
1
回答
如何分解
pyspark
dataframe中的map类型?
、
、
我有一个
数据
帧
import os, sysimport pyodbc from
pyspark
.sql.functions import explode, col, from_json, litfrom
pyspark<
浏览 28
提问于2020-10-06
得票数 0
回答已采纳
2
回答
按创建日期获取不同的行
、
、
我正在使用这样的
数据
帧
: DeviceNumber | CreationDate | Name1002 | 1.1.2019 | Lamp 我使用databricks和
pyspark
我如何减少
数据
帧
,使我每个"DeviceNumber“只有一行,并且这将是具有最高"CreationDate”
浏览 14
提问于2019-05-16
得票数 0
回答已采纳
1
回答
使用
Pyspark
处理具有不同JSON模式行的单个
数据
集
、
、
、
、
我使用的是
PySpark
,我需要处理附加到单个
数据
帧
中的日志文件。大多数列看起来都是正常的,但其中一列在{}中有JSON字符串。但我不知道在这里处理
数据
的最好方法是什么。 示例: ? 这个表稍后将帮助我以所需的方式聚合事件。 我尝试使用函数
withColumn
和from_json。它成功地在单个列中工作: from
pyspark
.sql.types import *
浏览 15
提问于2021-09-01
得票数 0
1
回答
不能将列转换为bool
、
、
我正在尝试使用时间更新
PySpark
数据
帧
中的列。我正在使用数组检查多个
条件
。我得到了错误'Cannot convert column into bool'。我假设这是因为我使用in来检查一个值列表。代码如下neg = ['no', 'n', 'N', '
浏览 1
提问于2018-05-23
得票数 0
回答已采纳
1
回答
将Numpy数组追加到
Pyspark
Dataframe中
、
、
、
、
我需要在
PySpark
数据
帧
中追加一个NumPy数组。collect(), 117310.979016494) 输出是一个对象numpy.ndarray,如下面的[True, False, True] 接下来,我尝试附加一个Numpy数组,该数组以前是用同一个
PySpark
.Dataframe的
数据
计算得出的。train4 = train3.
withColumn
('var38mc',col(df_var38mc)) 但是我得到了这个错误: AttributeError
浏览 7
提问于2020-12-08
得票数 0
回答已采纳
1
回答
如何在没有直接连接列的两个
数据
帧
之间找到最匹配的行?
、
、
、
、
对于
pyspark
数据
帧
中的每一组坐标,我需要在
另一个
数据
帧
中找到最接近的一组坐标 我有一个包含坐标
数据
的
pyspark
dataframe (dataframe a): +---------86.77030181884766| | 34.9428028| -97.8180194| 和
另一个
类似的10.
浏览 22
提问于2020-07-20
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
一个Python大数据处理利器:PySpark入门指南
如何从Pandas迁移到Spark?这8个问答解决你所有疑问
一文读懂PySpark数据框
一文读懂 PySpark 数据框
如何在CDH集群上部署Python3运行环境及运行Python作业
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券