如何在pyspark dataframe读取方法中包含分区列

、、、

我已经阅读了如下文件：读取数据 dfParquet = spark.read.format("parquet").option("mode", "FAILFAST") .load("/Users从特定分区读取Avro分区数据在另一个作业中，我需要从上述作业的输出中读取数据，即从datasink/avro目录中读取数据。我使用下面的代码

浏览 18提问于2020-08-22得票数 0

回答已采纳

1回答

由多个列重新划分Pyspark数据

、、

编辑:既然我再次阅读了这篇文章，那么在这个问题上添加更多的上下文：dataframe.repartition(200在读取目录时，我看到仓库中的目录是按我想要的方式分区的：/apps/hive/warehouse/db&

浏览 4提问于2020-11-03得票数 3

回答已采纳

3回答

寻找一些信息使用自定义分区在火花公子。我有一个数据存储不同国家的国家数据。因此，如果我对country列进行重新分区，它将将我的数据分发到n个分区中，并将类似的国家数据保存到特定的分区中。当我看到使用glom()方法时，这将创建一个倾斜的分区数据。一些国家，如美国和中国，有大量的数据，特别是数据。我想重新划分我的数据，如果国家是美国和CHN，那么它将进一步分裂为大约10个分区，其他保持相同的其他国

浏览 3提问于2018-10-13得票数 6

回答已采纳

1回答

如何除以星火DataFrame中列的和

、、

如何在不立即触发计算的情况下，高效地将列除以其在星火DataFrame中的自身和？[id: bigint]w = Window.rowsBetween(Window.unboundedPreceding, Window.unboundedFollowing)在本例

浏览 0提问于2018-01-31得票数 2

回答已采纳

1回答

从多个S3存储桶导入pyspark dataframe，其中有一列指示条目来自哪个存储桶

、、

我有一个按日期分区的S3存储桶列表。第一个存储桶标题为2019-12-1，第二个存储桶标题为2019-12-2，依此类推。这些存储桶中的每一个都存储我正在读取到pyspark dataframe中的拼图文件。从每个存储桶生成的pyspark dataframe具有完全相同的模式。我想要做的是迭代这些存储桶，并将所有这些拼图文件存储到一个单独的pyspark dataframe中，该数据框有一个dat

浏览 13提问于2019-12-16得票数 0

回答已采纳

2回答

如何使用pySpark读取分区parquets的子示例？

、、、

假设为我提供了parquets数据的以下分区：└── data/ │ ├── <hash>_toto.parquet我可以读取整个分区数据，但我不知道如何排除其中的一些数据。我希望保留Spark实现的特性，在这里合并数据并创建列pr

浏览 8提问于2022-01-20得票数 1

回答已采纳

1回答

使用PySpark但不使用色调读取数据时获取空值

、、

我正在尝试使用PySpark读取分区数据，但不知何故，对于某些分区，它为所有列(分区列除外)提供了空值。当我检查HUE/Hive中的数据时，一切正常。我一直在谷歌上搜索这个问题，发现了这个： https://community.cloudera.com/t5/Support-Questions/Pyspark-Table-Dataframe-returni

浏览 20提问于2021-10-29得票数 1

回答已采纳

1回答

根据特定列进行PySpark重新分区

、、、

我正在研究如何对数据集进行重新分区(在PySpark中)，以便将指定列中具有相同ID的所有行移动到相同的分区。实际上，我必须在每个分区中运行一个程序，该程序为具有相同ID的所有行计算单个值。我有一个从HIVE QL查询构建的dataframe (df) (假设包含10000个不同的ID)。我试过了：默认情况下，我会获得2

浏览 4提问于2018-05-22得票数 0

1回答

雪花不扣除拼花中的按列分区

、

但是，当对拼图文件进行分区并将其存储在S3中时，推断模式的功能与pyspark数据帧不同。在DataFrames中，分区文件夹名和值被读取为最后一列；在Snowflake推断模式中，有没有办法实现同样的结果？ @GregPavlik -输入为结构化拼图格式。然而，如果拼图文件存储在分区中-如上图所示。snowflake infer Schema仅提供三列；但是，读取</em

浏览 0提问于2021-10-21得票数 5

1回答

在集群上使用applyInPandas和PySpark

、、、、

applyInPandas方法可以用于并行地应用一个函数与一个GroupedData吡火花对象，如下所示。import pandas as pdfrom pyspark.sql import SparkSession def func(x): return x pdf = pd.DataFrame) dx = s

浏览 37提问于2022-10-10得票数 1

回答已采纳

3回答

如何在Spark中分配和使用列标题？

、、、、

我正在读取下面的数据集。我的文件包含50+字段，我希望为每个字段分配列标题，以便稍后在脚本中引用。我如何在PySpark中做到这一点？DataFrame是去这里的路吗？ PS -菜鸟到火花。

浏览 2提问于2016-04-14得票数 7

1回答

使用自定义模式创建一个拼花文件

、、

我有这样的要求：我们有一个API，它将给我们列的模式。我们如何在使用PySpark的Databricks中做到这一点。

浏览 4提问于2022-07-30得票数 -1

回答已采纳

1回答

如何在postgres驱动程序中使用nextval()？

、、、、

在Postgres中，我有一个名为"mytable“的表，其中有两个列，id (bigint)和value (varchar(255))。PySpark应用程序接受一个dataframe并使用postgresql(PostgreSQL42.1.4.jar)将数据插入到"mytable“中。我使用以下方法创建id列： df.withColumn('id', lit("nextval('my_sequence&#x

浏览 0提问于2018-01-21得票数 2

回答已采纳

1回答

将多个PySpark* DataFrames与MergeSchema合并*

、、

我想将多个PySpark数据帧合并到一个PySpark数据帧中。它们都来自相同的模式，但是它们可能会有所不同，因为有时会缺少一些列(例如，模式通常包含200个具有已定义数据类型的列，其中dataFrame A有120列，dataFrame B有60列)。是否有可能在不写入和读取所有数据帧的情况下再次使用mergeSchema合并模式？谢谢。

浏览 2提问于2020-06-22得票数 0

1回答

Dataframes Pyspark中时间戳列的分区

、、、、

我有一个PSspark格式的DataFrame，格式如下12/11/2013 1 sam 811/10/2013 3 Jack 8 103 Accounts我想做基于dno的分区df.write.saveAsTable( 'default.testing',

浏览 2提问于2017-01-19得票数 2

回答已采纳

3回答

将行中的每一列传递给Spark中的哈希函数

、、、

我有一个带有N列的表，我想将它们连接到一个string列中，然后在该列上执行一个散列。我想完全在Spark中完成这项工作，理想情况下，我已经尝试过HASH(*) as myhashcolumn，但是由于几个列有时为null，我无法像我所期望的那样使它工作。

浏览 1提问于2018-11-26得票数 1

回答已采纳

2回答

如何随机调整火花放电中仅一列的值？

、、

我想打破列和其他数据文件之间的关联。我想在维护上述列中的值分布的同时做到这一点。在熊猫中，我常常通过简单地调整列的值，然后将值分配给列来实现这一点。由于数据是分区的，所以在火花放电的情况下，这就不那么简单了。我认为在pyspark中甚至没有一种方法可以在dataframe中设置一个新列，并从另一个dataframe中设置一个列

浏览 5提问于2022-02-03得票数 1

1回答

避免数据洗牌和合并-numPartitions不应用于单个分区，同时在spark中执行左反连接。

、、

我有两个数据- target_df和reference_df.我需要删除target_df中的account_id，它存在于reference_df中。target_df是从hive表创建的，将有数百个分区。它是根据日期(20220101到20221101)进行分区的。我是做左反连接和写入数据在hdfs的位置。df_purge.coalesce(numPartitions).write.partitionBy("date").mode("overwrite").parquet(&q

浏览 11提问于2022-11-21得票数 0

1回答

当新的分区比旧的分区有更多的列时，如何从Avro中读取所有列？

、、

较新的分区可以包含比较旧分区更多的列。当我用Spark 2.4.3读取它时，我得到了第一个(最旧的)分区的模式的DataFrame，所有新添加的列都丢失了。我应该怎么做才能读取所有列？有什么变通方法吗？谢谢。

浏览 13提问于2019-11-18得票数 0

1回答

PySpark DataFrame:标记某些列值发生更改的行

、、、

我有一个包含'people‘和'timestamp’列的PySpark DataFrame (加上其他与问题无关的列)。解释是用户在那个时候做了一些事情。你知道我如何在PySpark中实现这一点吗？最好是以DataFrame作为结果？感谢你的想法！

浏览 35提问于2018-08-30得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

由多个列重新划分Pyspark数据

用自定义除法器划分电火花中的数据帧

如何除以星火DataFrame中列的和

从多个S3存储桶导入pyspark dataframe，其中有一列指示条目来自哪个存储桶

如何使用pySpark读取分区parquets的子示例？

使用PySpark但不使用色调读取数据时获取空值

根据特定列进行PySpark重新分区

雪花不扣除拼花中的按列分区

在集群上使用applyInPandas和PySpark

如何在Spark中分配和使用列标题？

使用自定义模式创建一个拼花文件

如何在postgres驱动程序中使用nextval()？

将多个PySpark* DataFrames与MergeSchema合并*

Dataframes Pyspark中时间戳列的分区

将行中的每一列传递给Spark中的哈希函数

如何随机调整火花放电中仅一列的值？

避免数据洗牌和合并-numPartitions不应用于单个分区，同时在spark中执行左反连接。

当新的分区比旧的分区有更多的列时，如何从Avro中读取所有列？

PySpark DataFrame:标记某些列值发生更改的行

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐