pyspark withcolumn条件基于另一个数据帧

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、、

我有以下输入：valueX valueY 4 3数据帧B：dataframeA.join(dataframeB).withColumn("isIn",sf.when((dataframeA["valueX"] > dataframeB["startX

浏览 27提问于2021-06-04得票数 0

1回答

我正在面对挑战，当我添加动态列在pyspark中。/// i.e dataframe which satisfy this condition i am able to do it in pandas but facing challenge in pysparkdict_of_YearMonth[key_name] 然后，我想把所有的数据串接到一个电火花数据，我可以这样做熊猫如下所示，但我需要在火星雨。snapshots=pd.concat([dic

浏览 1提问于2017-03-09得票数 0

回答已采纳

1回答

Spark窗口函数和获取每个分区的每列的第一个和最后一个值(窗口聚合)

、、

假设我有一个巨大的数据集，我使用partitionBy('id')。假设id对于一个人是唯一的，那么每个id可能有n行，目标是将其减少到1。基本上，聚合以使id不同。

浏览 72提问于2020-10-02得票数 0

0回答

PySpark数据帧:根据条件同时更改两列

、、

我想知道是否有一种方法可以同时更改PySpark数据帧的两列(或更多列)。现在我正在使用withColumn，但我不知道这是否意味着条件将被检查两次(对于大型数据帧来说，这可能太昂贵了)。is_special_id_udf(col("id"))) & should_hide_response_udf(col("response_created")) new_df = df.withColumn</em

浏览 2提问于2017-06-21得票数 1

回答已采纳

1回答

基于类方法创建PySpark数据框列

、、、、

get_email(self): return emaildf = data.withColumn('email', (F.udf(lambda

浏览 6提问于2020-11-12得票数 0

回答已采纳

1回答

在pyspark的现有dataframe中添加新列的方法是什么？

、、、

我已经在现有的数据框中添加了一个新列，但它没有反映在数据帧中。customerDf.withColumn("fullname",expr("concat(firstname,'|',lastname)")) test = customerDf

浏览 4提问于2021-01-26得票数 0

2回答

使用lower函数在文本清理中将pyspark* dataframe中的单个列中的值转换为小写*

、

尝试使用.lower函数将pyspark dataframe单列中的值转换为小写，以便进行文本清理f.lower(f.col(col

浏览 0提问于2019-02-21得票数 0

3回答

如何在pyspark.sql.functions.when()中使用多个条件？

、

我有一个包含几列的数据帧。现在我想从另外两个列派生一个新列：new_df = df.withColumn("new_col", F.when(df[otherwise(0))py4j.Py4JException: Method and([class java.lang.Double]) does not existnew_df = df.<e

浏览 0提问于2015-10-15得票数 34

回答已采纳

1回答

无法从spark dataframe导出数据

、

数据帧看起来没问题。我将数组转换为字符串。使用from pyspark.sql.types import StringType def array_to_string.withColumn('embeddings', array_to_string_udf(result["embeddings"])).withColumn('ner_chunk',

浏览 7提问于2021-07-29得票数 1

2回答

在spark scala中编写withcolumn的泛型函数

、、、

我正在使用下面的write列条件创建一个新的数据帧df。我将下面的write列条件用于其他数据帧too.How，将这些write列条件写成一个泛型函数，并在所有数据帧中访问它。val df = sampledf.withColumn("concat", concat($"columna", $"columnb", $"columnc"))

浏览 24提问于2020-07-27得票数 1

1回答

如何在pyspark中迭代dataframe多列？

、、

浏览 1提问于2020-06-04得票数 1

2回答

替换PySpark列中的最后两个字符

、

在带有包含基于日期的整数的列(如20190200,20180900)的spark dataframe中，我希望将所有以00结尾的数据帧替换为01结尾的那些整数，这样之后我就可以将它们转换为可读的时间戳我有以下代码： from pyspark.sql.types import StringType udf = sf.udf(lambdax: x.replace("00","01"), String

浏览 14提问于2020-06-27得票数 1

回答已采纳

1回答

(将列表添加到列dataframe pyspark)

、、、

如果我已经存在数据帧，且我想要向数据框中添加新列sqlContext = SQLContext(sc)rdd2 = sc.parallelize(li2)test_df2 = test_df.withColumn向列dataframe pyspark添加列表

浏览 0提问于2020-10-05得票数 1

1回答

使用pyspark中的regex将数字添加到字符串中最后一个字符之前

、、、、

我需要使用pyspark在字符串的最后一个字符(即在spark数据帧的列中)之前添加相同的数字。例如，假设我有字符串2020_week4或2021_week5。更大的背景是，替换是个位数周的条件-only。所以大概是这样的： df.withColumn('week', when(len(col("week")) == 10, regexp_replace(week, REGEX_PATTERN, "0")=\d$)", "$0

浏览 35提问于2021-01-26得票数 0

回答已采纳

1回答

如何分解pyspark* dataframe中的map类型？*

、、

我有一个数据帧 import os, sysimport pyodbc from pyspark.sql.functions import explode, col, from_json, litfrom pyspark<

浏览 28提问于2020-10-06得票数 0

回答已采纳

2回答

按创建日期获取不同的行

、、

我正在使用这样的数据帧： DeviceNumber | CreationDate | Name1002 | 1.1.2019 | Lamp 我使用databricks和pyspark我如何减少数据帧，使我每个"DeviceNumber“只有一行，并且这将是具有最高"CreationDate”

浏览 14提问于2019-05-16得票数 0

回答已采纳

1回答

使用Pyspark处理具有不同JSON模式行的单个数据集

、、、、

我使用的是PySpark，我需要处理附加到单个数据帧中的日志文件。大多数列看起来都是正常的，但其中一列在{}中有JSON字符串。但我不知道在这里处理数据的最好方法是什么。示例： ? 这个表稍后将帮助我以所需的方式聚合事件。我尝试使用函数withColumn和from_json。它成功地在单个列中工作： from pyspark.sql.types import *

浏览 15提问于2021-09-01得票数 0

1回答

不能将列转换为bool

、、

我正在尝试使用时间更新PySpark数据帧中的列。我正在使用数组检查多个条件。我得到了错误'Cannot convert column into bool'。我假设这是因为我使用in来检查一个值列表。代码如下neg = ['no', 'n', 'N', '

浏览 1提问于2018-05-23得票数 0

回答已采纳

1回答

将Numpy数组追加到Pyspark* Dataframe中*

、、、、

我需要在PySpark数据帧中追加一个NumPy数组。collect(), 117310.979016494) 输出是一个对象numpy.ndarray，如下面的[True, False, True] 接下来，我尝试附加一个Numpy数组，该数组以前是用同一个PySpark.Dataframe的数据计算得出的。train4 = train3.withColumn('var38mc',col(df_var38mc)) 但是我得到了这个错误： AttributeError

浏览 7提问于2020-12-08得票数 0

回答已采纳

1回答

如何在没有直接连接列的两个数据帧之间找到最匹配的行？

、、、、

对于pyspark数据帧中的每一组坐标，我需要在另一个数据帧中找到最接近的一组坐标我有一个包含坐标数据的pyspark dataframe (dataframe a)： +---------86.77030181884766| | 34.9428028| -97.8180194| 和另一个类似的10.

浏览 22提问于2020-07-20得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云