使用udf统计与pyspark dataframe中的某个值匹配的键值

、、、、

我有一个pyspark dataframe，它有一个值为string json的列。如何计算与字典内列表中的某个值匹配的值，并以列的形式返回报告？我想使用Python函数和pyspark udf来实现。upgrade":false}]}} +------------------------------

浏览 15提问于2020-12-11得票数 0

1回答

计数与pyspark dataframe中的某个值匹配的键值

、、、、

我有一个pyspark dataframe，它有一个值为string json的列。如何计算与字典内列表中的某个值匹配的值，并以列的形式返回报告？]}} +--------------------------------------------------------------------------+ 我想计算一下列表中有多少“升级”键是假的

浏览 18提问于2020-12-11得票数 0

回答已采纳

1回答

过滤和保存数据文件的前X行

、、、

我使用pySpark读取和计算数据的统计数据。我正在向dataframe中添加一个新的timePeriod列，在添加它之后，我想使用与某些预定义值匹配的timePeriod保存第一个50K记录。我的目的是将这些行保存到带有dataframe头的CSV 中。我知道这应该是col和write.csv的</

浏览 0提问于2017-03-18得票数 3

回答已采纳

1回答

python中的UDF和python函数

、、

我有一份数据文件，在Pyspark as中：我制作了一本字典，作为： thedict={"USA":"WASHINGTON","CHN":&

浏览 0提问于2018-12-05得票数 2

回答已采纳

2回答

比较两个中的字符串值

、、、、

1的brand_stop列中的字符串是否存在于dataframe 2的Name列中。匹配应该按行顺序进行，如果匹配成功，则应该将特定记录存储在新列中。我试过使用Join对数据进行过滤：-from pyspark.sql.types import BooleanTypecont

浏览 0提问于2018-05-23得票数 1

回答已采纳

1回答

将不带返回值的Python Lambda函数转换为Pyspark

、、、、

我在Python语言中有一个有效的lambda函数，它可以计算dataset1中的每个字符串与dataset2中的字符串之间的最高相似度。在迭代期间，它将字符串、最佳匹配和相似度以及其他一些信息写入bigquery。没有返回值，因为该函数的目的是向bigquery数据集中插入一行。这个过程需要相当长的时间，这就是为什么我想使用Pyspark和Dataproc来加速

浏览 16提问于2019-07-19得票数 2

回答已采纳

2回答

基于pyspark数组列中的多个字符串进行过滤

、、、、

df = sqlContext.createDataFrame(pd.DataFrame([('id1', ['a','b','c']),from pyspark.sql.functions import udf, col, when filter_array_udf = udf(

浏览 69提问于2021-06-19得票数 2

回答已采纳

1回答

udf来自SparkSession和udf来自pyspark.sql.functions有什么区别？

、、、

我有两种方法来使用udf：spark = pyspark.sql.SparkSession.builder.getOrCreate()output:print(udf)<fu

浏览 4提问于2021-12-20得票数 0

回答已采纳

1回答

如何使和有效地运行“无效”PySpark用户定义函数(UDF)，不返回任何内容？

、、

给定在PySpark中指定用户定义函数的可用方法：如何才能在dataframe上创建和运行一个用户定义的函数例如:假设您希望并行地将一个dataframe列加载到某个外部持久性存储中。也就是说，不要将整个数据写入HDFS，而是使用一个字段作为键，另一个字段作为将逐行传输到blob存储(如s3 )的<

浏览 0提问于2019-01-17得票数 0

1回答

根据单独的键数组列解析键表字典的PySpark字符串列

、、、

我现在正试图根据下面的“keyValue”列中的键的有序数组来提取下面的“keys”列中的值。和withColumn()步骤，我可以很容易地根据特定的键查询'keyValue‘列，并将键值的数组插入到一个新列中。我正在尝试执行与上面相同的步骤，但按“Keys”列的顺序执行每个键。.get(x, None)) <e

浏览 29提问于2021-08-10得票数 2

2回答

如何在PySpark* 1.6中将DataFrame列从字符串转换为浮点型/双精度？*

、、、

在Spark1.6 DataFrame中，目前没有PySpark内置函数可以将字符串转换为浮点型/双精度型。New_DF = rawdataDF.select('house name',

浏览 0提问于2016-02-28得票数 5

1回答

如何将udf添加到sqlContext中

、、

我知道我可以注册一个UDFand函数，因为它可以在SQL查询中使用： return len(s)from pyspark.sql.types import IntegerTypedata.select(exam

浏览 1提问于2018-04-13得票数 0

回答已采纳

1回答

用户定义函数返回序列

、、

我正在尝试将python函数转换为UDF，以便在上使用。该函数将列名与列值连接起来，然后以行方式连接生成的字符串。例如： def get_

浏览 3提问于2021-07-21得票数 2

回答已采纳

1回答

解析包含Pyspark中XML字符串的列

、、、

我已经创建了一个UDF，用于获取XML字符串、命名空间字典、x路径语法和XML中键值对的键，并返回一个值数组，以便稍后使用withColumn(col,explode(col))爆炸。现在，我正试图使用Pyspark在Databricks中包含XML字符串的列在dataframe上迭代此函数，并使用返回的数组创建一个新列。到目前为止，我已经使用作为我最初方法<em

浏览 6提问于2020-04-10得票数 0

1回答

rdd.toDF()将浮动更改为无

、、

(使用Apache Spark 1.6.0) Hi allr = df.map(lambda row: Row(**dict(row.asDict(), top=f(vec))))) m = [ float(j) for j in m]

浏览 2提问于2016-04-07得票数 0

回答已采纳

2回答

计算PySpark中每一行的唯一值

、、、、

我有PySpark DataFrame： StructField("col1", StringTypecc", "dd"),我需要计算每一行中唯一值的</e

浏览 6提问于2022-10-17得票数 1

回答已采纳

5回答

更新spark中的dataframe列

、、、、

查看新的spark API，还不清楚是否有可能修改DataFrame列。df.ix[x,y] = new_value 编辑：合并下面所说的内容，您不能修改现有的数据格式，因为它是不可变的，但是您可以返回一个新的数据格式，并进行所需的修改。如果只想根据条件替换列中的值，如np.wher

浏览 12提问于2015-03-17得票数 95

回答已采纳

1回答

PySpark - Spark数组与DataFrame列表是否不同？

、、、、

如果我有一个包含arrays的Spark，我可以通过DataFrame在这些数组上使用Python List方法吗？如何将Spark DataFrame array<double>转换为Python列表？下面是一个示例，其中包含一些UDF。我不确定为什么使用最大值可以，但是使用len就不行了。最后，我想用原始数组列中的采样值创建一个新列。这也会得到一个关于期望两个参数的</em

浏览 1提问于2016-10-28得票数 4

回答已采纳

1回答

Spark dataframe的udf()的Python包中的函数

、、

对于通过pyspark的Spark dataframe，我们可以使用pyspark.sql.functions.udf来创建一个user defined function (UDF)。我想知道我是否可以在udf()中使用Python包中的任何函数，例如来自numpy的np.random.normal？

浏览 0提问于2015-04-07得票数 8

1回答

如何在PySpark中迭代数组列

在PySpark中，我使用了dataframe_a：| str1 | array_of_str |，它将array_of_str (dataframe_a)中的每个元素映射到它在dataframe_b中的值，例如： +-----------+----------------------+------

浏览 1提问于2020-01-09得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

计数与pyspark dataframe中的某个值匹配的键值

过滤和保存数据文件的前X行

python中的UDF和python函数

比较两个中的字符串值

将不带返回值的Python Lambda函数转换为Pyspark

基于pyspark数组列中的多个字符串进行过滤

udf来自SparkSession和udf来自pyspark.sql.functions有什么区别？

如何使和有效地运行“无效”PySpark用户定义函数(UDF)，不返回任何内容？

根据单独的键数组列解析键表字典的PySpark字符串列

如何在PySpark* 1.6中将DataFrame列从字符串转换为浮点型/双精度？*

如何将udf添加到sqlContext中

用户定义函数返回序列

解析包含Pyspark中XML字符串的列

rdd.toDF()将浮动更改为无

计算PySpark中每一行的唯一值

更新spark中的dataframe列

PySpark - Spark数组与DataFrame列表是否不同？

Spark dataframe的udf()的Python包中的函数

如何在PySpark中迭代数组列

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐