Spark中的Parquet字节数据帧到UTF-8

、、、、

我试图用python中的Spark从拼图文件中读取数据帧，但我的数据帧是字节编码的，所以当我使用spark.read.parquet，然后使用df.show()时，它看起来如下所示： +---20 2D 2D]| 0| | 3|[43 6F 6D]| 0| +---+------

浏览 57提问于2019-10-02得票数 2

回答已采纳

1回答

如果您将DataFrame保存到磁盘，如果您在脚本中使用较低DataFrame，Spark是否会加载该数据？

、、、、

如果您加载一些数据，计算一个DataFrame，将其写入磁盘，然后稍后使用DataFrame ...假设它不是仍然缓存在内存中(假设没有足够的缓存)，Spark是否足够聪明，可以从磁盘加载数据，而不是从原始数据重新计算例如： df1 = spark.read.parquet('data/df1.parquet') df2 = spark.read.parquet(&#x

浏览 19提问于2019-07-01得票数 2

回答已采纳

1回答

尝试在Spark中读取拼花时出错

、、

我使用的是Python Spark 2.4.3df.write.parquet("result_parquet") parquetFile = spark.r

浏览 10提问于2019-07-20得票数 1

3回答

阻止DataFrame.partitionBy()从架构中删除已分区的列

、

我按如下方式对DataFrame进行分区：代码给出了预期的结果(即按类型和类别划分的数据但是，"type“和"category”列将从数据/模式中删除。有没有办法防止这种行为？

浏览 3提问于2016-03-23得票数 20

回答已采纳

1回答

如何使用Spark Map Reduce将一堆镶木地板文件合并在一起？

、、、、

我在代表相同数据模式的不同表的目录中有大量的拼图文件，我想将它们合并到一个大的RDD中。理想情况下，我想做一个map reduce，映射器发出小的RDD，reducer合并它们。下面的第一行生成目录中的文件列表，第二行应该生成完整的RDD。但是，它给出了一个unable to serialize错误，因为我认为您不能在map实例中创建RDD。arr = map(lambda x: ["&#

浏览 1提问于2017-09-06得票数 1

1回答

Spark dataframe CSV vs Parquet

、、

我是Spark的初学者，正在尝试理解spark数据帧的机制。当从csv加载数据时，我正在比较spark sql dataframe上sql查询的性能。我的理解是，一旦数据被加载到spark数据帧中，那么数据来自哪里(csv或parquet)就不再重要了。然而，我看到了两者之间的</em

浏览 2提问于2018-02-11得票数 1

1回答

如何在Python中读取多个文件夹中的多个文件

、、、

我必须读取一个位于不同年份的多个文件夹中的‘’.parket‘’文件。当是一年或两年的时候，这不是问题，但是当超过两年的时候，事情就变得复杂了，因为我必须阅读每个月对应的12个子目录。步骤1:读取文件df_2019_01=spark.read.parquet('/2019/01/name.parquet/') df_2019_02=spark.

浏览 2提问于2021-06-29得票数 0

1回答

Spark Dataframe正在丢失分区

、、、、

我在读取spark数据帧时发现了这个奇怪的问题。我将数据帧重新划分为50k个分区。但是，当我读取数据帧并对其执行计数操作时，我发现当我使用spark 2.0时，底层rdd只有2143个分区。因此，我转到保存重新分区的数据的路径，发现50476 因此，它在保存数据的

浏览 11提问于2017-08-11得票数 4

回答已采纳

1回答

使用SparkR创建的数据帧和使用Sparklyr创建的数据帧有什么区别？

、、、、

我正在Azure databricks中读取一个拼图文件:使用SparkR > read.parquet()使用Sparklyr > spark_read_parquet()这两个数据帧是不同的，有没有办法将SparkR数据帧转换为sparklyr数据帧，反之亦然？

浏览 11提问于2020-08-18得票数 0

回答已采纳

2回答

Spark是否在read上维护拼花地板分区？

、、、

我很难找到这个问题的答案。假设我向parquet编写了一个数据帧，并结合使用repartition和partitionBy来获得一个分区良好的parquet文件。如下所示：现在，稍

浏览 5提问于2018-06-13得票数 15

1回答

当我退出spark* shell时，所有的数据帧数据都消失了。这是正常的吗？*

、、

我正在将CSV数据加载到数据帧中。这可能需要大约5分钟(大量数据)。当我退出spark-shell并重新登录到spark-shell时，数据就消失了。这是正常行为吗？我在文档中找不到任何关于这方面的东西。如何在会话之间持久化数据？

浏览 11提问于2017-06-22得票数 0

回答已采纳

1回答

当显式给定s3路径时，模式合并不起作用

、、、

当显式地指定s3路径来读取不在同一目录中的parquet文件时，不会推断分区方案，因此我无法在我的spark数据帧中获得已分区的列。,'s3://bucket/folder2/col=val2/f

浏览 12提问于2019-10-10得票数 0

2回答

在Spark* java中使用Dataframe合并两个拼图文件*

、、、

我有两个模式相同的拼图文件。我想用Spark java中的Dataframe合并第二个文件和第一个文件，没有任何重复的数据。该怎么做呢？提前谢谢。

浏览 0提问于2017-08-14得票数 0

1回答

我有一个很大的pyspark Dataframe，我想把它保存在myfile (.tsv)中以备将来使用。csv_file.flush() 1.Worker: Executor app-20190722085320-0000/14 finished with state KILLED exitStatus 1432-在作业执行日志中：请注意，在小数据上，执行是可以的，但在大数据上则不是。另外，请告诉我保

浏览 20提问于2019-07-23得票数 7

1回答

使用pyspark将拼图文件(在亚马逊s3中)存储到spark数据框架中

、、、、

我正在尝试从我的s3存储桶中的特定文件夹读取数据。这些数据是拼图格式的。为此，我使用了data = wr.s3.read_parquet("s3://bucket-name/folder/with/parquet/files/", dataset = True) 这将返回一个pandas

浏览 9提问于2021-06-10得票数 0

回答已采纳

1回答

在df.toPandas().to_csv('mycsv.csv')之后，数据在重新读取时会被混淆

、、

我有一张名叫result_25的桌子。我使用此代码成功地将数据导出到磁盘上的csv。result_25.toPandas().to_csv('mycsv.csv')rr = spark.read.csv('mycsv.csv',inferSchema=True, header=True) 我查了数据，看上去很好。但是，当我用.describe() .describe().show()检查我的.

浏览 3提问于2018-10-01得票数 2

回答已采纳

1回答

如何共享全局spark会话？

实际上，我在一个项目中工作，其中包括一个由多个任务和单个任务组成的多个组件组成的工作流程。例如。在join中，我们需要4个组件。因此，流程类似于，使用spark submit为join创建一个spark会话，将输出保存在hdfs中，并关闭当前spark会话。对于排序，使用spark创建另一个会话，并通过join任务获取存储在hdfs中的输出以进行排序。但问题是，从hdfs获取数据会产生开销。那么有

浏览 30提问于2019-07-19得票数 1

2回答

创建星火中小于100行组大小的拼花文件。

、、

我有一个火花数据帧，有少量的字段。其中一些字段是巨大的二进制小块。整行的大小约为50 MB。只要parquet.block.size的大小足以容纳100多行，就可以正常工作。是否有不同的<

浏览 2提问于2018-01-09得票数 11

回答已采纳

1回答

使用partitionBy写入现有目录Dataframe

、

在下面的代码中，我无法将数据帧写入到现有目录中，它只是从spark submit job.Is中退出，我可以将其写入现有目录而不是创建新目录？在这里，测试是一个数据帧 test.repartition(100).write.partitionBy("date").parquet(hdfslocation)

浏览 0提问于2017-08-03得票数 2

回答已采纳

2回答

如何解压拼图文件？

、、、、

我有一个大小约为60MB的test.parquet文件。使用下面的脚本，我发现拼图文件的列压缩是GZIP。import pyarrow.parquet as pqprint(parquet_file.metadata.row_group_parquet.ColumnChu

浏览 29提问于2021-07-02得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如果您将DataFrame保存到磁盘，如果您在脚本中使用较低DataFrame，Spark是否会加载该数据？

尝试在Spark中读取拼花时出错

阻止DataFrame.partitionBy()从架构中删除已分区的列

如何使用Spark Map Reduce将一堆镶木地板文件合并在一起？

Spark dataframe CSV vs Parquet

如何在Python中读取多个文件夹中的多个文件

Spark Dataframe正在丢失分区

使用SparkR创建的数据帧和使用Sparklyr创建的数据帧有什么区别？

Spark是否在read上维护拼花地板分区？

当我退出spark* shell时，所有的数据帧数据都消失了。这是正常的吗？*

当显式给定s3路径时，模式合并不起作用

在Spark* java中使用Dataframe合并两个拼图文件*

我们如何保存一个巨大的pyspark数据帧？

使用pyspark将拼图文件(在亚马逊s3中)存储到spark数据框架中

在df.toPandas().to_csv('mycsv.csv')之后，数据在重新读取时会被混淆

如何共享全局spark会话？

创建星火中小于100行组大小的拼花文件。

使用partitionBy写入现有目录Dataframe

如何解压拼图文件？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐