PySpark将列拆分到具有应用架构的新数据帧

、、、

如何通过逗号将字符串列拆分为具有应用模式的新数据帧？作为示例，下面是一个包含两列(id和value)的pyspark DataFrame df = sc.parallelize([(1, "200,201,hello"), (2, "23,24,hi")]).toDF(["id", "value"]) 我希望获取value列</e

浏览 18提问于2021-11-10得票数 1

1回答

将numpy中的不同数组添加到数据帧的每一行

、、、

我有一个SparkSQL数据帧和2Dnumpy矩阵。它们具有相同的行数。我打算将numpy矩阵中的每个不同数组作为新列添加到现有的PySpark数据帧中。这样，添加到每一行的列表是不同的。例如，PySpark数据帧如下所示 | Id | Name || 1

浏览 16提问于2019-10-05得票数 0

3回答

如何在pyspark数据框中将字符串类型的列转换为int形式？

、、

我在pyspark有数据帧。它的一些数字列包含'nan‘，所以当我读取数据并检查dataframe的模式时，这些列将具有'string’类型。如何将它们更改为int类型。我将'nan‘值替换为0，并再次检查了架构，但同时也显示了这些列的字符串类型。=True, inferSchema="true"

浏览 2提问于2017-10-26得票数 64

1回答

pySpark jdbc写入错误:调用o43.jdbc时出错。：scala.MatchError:空

、、、

我正在尝试使用pySpark将简单的spark数据帧写入db2数据库。Dataframe只有一个数据类型为double的列。这是只有一行和一列的数据帧：这是数据帧架构：当我尝试使用以下语法将此数据帧写入db2表时： dataframe.write.mode(&

浏览 0提问于2018-03-21得票数 1

1回答

Spark使用前一行中的值向dataframe添加新列

、、、、

我想知道如何在Spark (Pyspark)中实现以下内容+--+---++--+---++--+---++--+---++--+---++--+---++--+---+-------++--+---+-------++--+---+-------++--+---+

浏览 50提问于2015-12-16得票数 38

回答已采纳

1回答

如何使用pyspark和自定义python函数处理均匀的to流

、、

我当前的设置是：我使用作为如何读取数据的示例，但是：获取

浏览 52提问于2018-03-19得票数 3

1回答

Pyspark轮函数的问题

、、、、

在运行pyspark中的round函数时遇到了一些问题-我有下面的代码块，我试图将new_bid列舍入到两个小数位，然后将该列重命名为bid -我正在导入pyspark.sql.functions ASfunc以供参考，并使用其中包含的round函数： col("part&quo

浏览 1提问于2017-11-01得票数 20

回答已采纳

1回答

如何将所有的日期格式转换为日期列的时间戳？

、、、

我使用的是PySpark版本3.0.1。我正在将csv文件读取为具有2个日期列的PySpark数据帧。但是，当我尝试打印模式时，两列都被填充为字符串类型。 ? ? 上面附加的屏幕截图是Dataframe和Dataframe模式。如何使用pyspark将date列中的行值转换为时间戳格式？我已经尝试了很多东西，但所

浏览 16提问于2020-12-30得票数 2

1回答

雪花:从美国AWS到澳大利亚AWS的数据分离

、、、

在美国AWS地区的雪花数据库中有10 db的数据。要求将列中带有某些标志的数据子集拆分到AWS澳大利亚区域。1.将整个数据库从A复制到B。然后在中断复制之前暂停应用

浏览 3提问于2020-02-14得票数 1

2回答

如何使用monotonically_increasing_id连接两个没有公共列的pyspark数据帧？

、、、

我有两个相同行数的pyspark dataframe，但它们没有任何公共列。因此，我使用monotonically_increasing_id()将新列添加到这两个列中 from pyspark.sql.functions import monotonically_increasing_idcont_data = cont_data.join(df1,df1.match_id==cont_data.match_id, 'inner'

浏览 2提问于2017-06-03得票数 1

1回答

如何对pyspark* dataframe列应用函数*

、、

我正在尝试将我的pandas代码转换为pyspark dataframe，并尝试在dataframe的一列上应用函数。我在pandas dataframe中做了一些如下的事情。在操作了几个列值之后，将新列添加到pandas数据帧中，如下所示。return USD_amount salesData['Sales (INR)'] = salesData.apply

浏览 15提问于2020-01-03得票数 1

回答已采纳

1回答

如何使用PySpark更新hive表中的记录？

、

我们正在使用spark来处理大型数据，并且最近获得了新的用例，我们需要使用spark更新Hive表中的数据。下面是一个简单的例子:数据驻留在Hive表中，应用程序使用PySpark读取数据帧(比如PySpark)。例句:数据帧在列下面。例如：加5 Add 30 32000 应用</

浏览 1提问于2019-03-29得票数 2

2回答

从pyspark中的字典列创建数据帧

、、、、

我想从pyspark中现有的dataframe创建一个新的dataframe。数据帧"df“包含一个名为"data”的列，该列具有字典行，并具有字符串形式的模式。并且每个字典的键都不是fixed.For，例如，name和address是第一个行字典的键，但对于其他行来说情况并非如此，它们可能不同。如何转换为包含单个列的

浏览 2提问于2018-11-09得票数 1

1回答

删除PySpark数据帧中具有无效多边形值的行？

、、、、

我们在数据帧上使用PySpark函数，这会引发错误。错误很可能是由于数据帧中的错误行造成的。数据帧的架构如下：|-- geo_name: string (nullable = true)|--中的"geometry_polygon“列转换为几何类型

浏览 14提问于2022-10-18得票数 1

回答已采纳

1回答

windowPartitionBy和pyspark中的重新分区

、、、

我在SparkR中有一个小代码，我想把它转换成pyspark。我对这个windowPartitionBy并不熟悉，并且重新分区。你能帮我了解一下这段代码是做什么的吗？

浏览 34提问于2020-12-18得票数 0

回答已采纳

1回答

Pyspark数据框架操作的单元测试用例

、、、

我已经用python写了一些带有sql上下文的代码，即pyspark，通过将csv转换为pyspark dataframe来对csv执行一些操作(df操作，如预处理、重命名列名、创建新列并将其附加到相同的我没有在数据帧上编写单元测试用例的想法。有谁能帮我在pyspark的dataframe上写单元测试用例吗？或者给我一些数据帧上的</em

浏览 1提问于2016-04-14得票数 3

1回答

比较数据帧的两个字符串列，其值为"PO“、"GO”等，并创建第三个值为"High“、"Low”和"No Change“的列

、、、

我在一个数据帧中有两列。第一列被命名为previous_code，第二列被命名为New_code.These列，这些列具有"PO“、"GO”、"RO“等值。这些代码具有优先级例如"PO”比“GO”具有更高的优先级.I想要比较这两列的值，并在新列中放入输出为“高”、“低”和“无更改”，以防这

浏览 13提问于2019-12-26得票数 1

回答已采纳

1回答

星火SQL窗口函数-手动重新分区必要吗？

、、

我正在用PySpark处理按"A“列划分的数据。在应用窗口之前，我需要手动按列"B“重新划分数据吗?

浏览 3提问于2021-05-17得票数 1

1回答

大数据结构

还要解释两个join语句要实现的目标。

浏览 2提问于2021-10-28得票数 0

1回答

PySpark数据帧Pandas UDF返回空数据帧

、、、

我正在尝试按照groupby('Key').apply(UDF)方法将pandas_udf应用于我的PySpark数据帧以进行一些过滤。为了使用pandas_udf，我定义了一个输出schema，并在列Number上有一个条件。作为一个例子，这里的简化思想是我只希望返回具有奇数Number的行的ID。这就带来了一个问题，有时在一个组中没有奇怪的Number，因此

浏览 2提问于2020-05-18得票数 3

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

将numpy中的不同数组添加到数据帧的每一行

如何在pyspark数据框中将字符串类型的列转换为int形式？

pySpark jdbc写入错误:调用o43.jdbc时出错。：scala.MatchError:空

Spark使用前一行中的值向dataframe添加新列

如何使用pyspark和自定义python函数处理均匀的to流

Pyspark轮函数的问题

如何将所有的日期格式转换为日期列的时间戳？

雪花:从美国AWS到澳大利亚AWS的数据分离

如何使用monotonically_increasing_id连接两个没有公共列的pyspark数据帧？

如何对pyspark* dataframe列应用函数*

如何使用PySpark更新hive表中的记录？

从pyspark中的字典列创建数据帧

删除PySpark数据帧中具有无效多边形值的行？

windowPartitionBy和pyspark中的重新分区

Pyspark数据框架操作的单元测试用例

比较数据帧的两个字符串列，其值为"PO“、"GO”等，并创建第三个值为"High“、"Low”和"No Change“的列

星火SQL窗口函数-手动重新分区必要吗？

大数据结构

PySpark数据帧Pandas UDF返回空数据帧

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐