在不使用Spark的情况下从拼图中读取特定列

、

我正在尝试在不使用Apache Spark的情况下读取拼图文件，我能够做到，但我发现很难读取特定的列。我找不到谷歌的任何好资源，因为几乎所有的帖子都是关于使用阅读拼图文件的。下面是我的代码：val list = iter.toList list.foreach(record

浏览 6提问于2017-03-06得票数 1

1回答

在读取spark文件后未保留列顺序

、、、、

我正在尝试使用spark.read.json("<path>")读取一个json文件，但是默认情况下，列顺序是按sorted排序的。有很多嵌套列/新列经常被添加到模式中，我无法为所有列定义模式。在不手动定义模式的情况下，我们可以在读取preserve column order时使用<e

浏览 6提问于2021-04-28得票数 0

1回答

针对结构值的Spark -Hive集成-空输出

、、

使用Spark 2.2 我已经从spark程序中填充了一个拼图结构列，也填充了另一个拼图列结构数组当它将其作为外部表从配置单元读取时；结构数组已正确填充，但结构(非数组类型)字段生成为NULL。注意:在拼图中，同时填充了struct和struct数组值。只有在蜂巢里我们才有问题，对此有什么想法吗？

浏览 7提问于2020-01-18得票数 0

1回答

使用通配符读取物理分区的数据

、、、

我在AWS S3上有一个持久化数据帧，结构如下： s3://bucket/df/ |__ FILENAME01.json |__ FILENAME02如果我使用以下语法读取此数据帧： df = spark.read.json("s3://bucket/df)" 没有扩展名的文件将是我的数据帧的一部分，这是不可取<e

浏览 50提问于2021-02-20得票数 1

回答已采纳

3回答

验证火花放电数据帧列类型的可靠方法

、、、

如果我从CSV读取数据，默认情况下所有列都是"String“类型。通常，我使用以下函数检查数据，这些函数概述了数据及其类型df.show()df.distinct().count()但是，如果有一个我认为是特定类型的列，例如Double，我不能确定如果我没有商业知识，是否所有的值都是双倍的，而且因为我看不到所有的价值(数以

浏览 0提问于2018-09-21得票数 2

1回答

通过另一列的值初始化列表

我在Cassandra DB中有一个表，其中有一些列，例如： id (text), ..., data (text).出于迁移的目的，我需要将“数据”的值复制到一个新列：data_list (list<text>)。如何通过data_list列中的值初始化data列？这个是可能的吗？

浏览 2提问于2021-06-13得票数 1

回答已采纳

1回答

我有一个csv文件有300列。在这300列中，我只需要3列。因此，我定义了相同的模式。但是，当我将模式映射到dataframe时，它只显示了3列，而显示了与前3列不一致的映射模式。它没有将csv列名与我的架构结构字段进行映射。StructField("Incident Number",IntegerType(),True), StructField("Entry DtTm",DateType() ,Tru

浏览 4提问于2022-09-04得票数 2

回答已采纳

1回答

Pyspark:仅从嵌套的json数据中读取特定字段

、、、

我正在尝试创建一个spark作业，它可以读取1000个json文件并执行一些操作，然后再次写入文件(s3)。这需要很长时间，而且我一直在耗尽内存。我知道spark会在没有给出模式的情况下尝试推断模式。最明显的做法是在读入时提供模式。但是，模式因文件而异，这取决于许多不重要的因素。在所有文件中大约有100个'core‘列，这些是我唯一想要的。是否可以使用pyspark编写一个只将我想要<e

浏览 35提问于2020-08-21得票数 0

1回答

更改拼花文件的列值，而不更改拼花文件的名称，使_spark_metadata不被更改

、、

因此，我有一个火花结构化流作业，它将扁平的json消息数据存储在hdfs位置中的日期分区文件夹中，即/source/wireless/active_portal/activation/dt=current我必须在不更改名称的情况下将所有拼板文件中的特定列值PIN更改为默认值XXXX，这样_spark_metadata就不会受到干扰。是否有一种方法可以通过使用<

浏览 5提问于2022-03-31得票数 1

1回答

在不更改列名的情况下创建PySpark数据框

、、、

我使用下面的CTAS命令使用SparkSQL创建表。FROM TBL1 在那之后，我正在使用下面的PySpark代码读取新创建的位置(TBL2)下面的文件。但是，下面的data frame仅使用lowercase中的所有列名创建。而预期的结果是在camel case中，就像我在上面对CTAS所做的那样。df = spark.read.format('ORC') \

浏览 12提问于2019-12-23得票数 1

回答已采纳

2回答

星火调度延迟的求取

我希望能够为每个任务生成一个度量表，比如当您访问特定阶段时，收集器Spark上的表。调度程序的延迟是如何计算的<

浏览 5提问于2016-06-23得票数 2

回答已采纳

1回答

如何为火花中的多个数据文件生成相同的UUID？

、、

我有一个从文件中读取的df然后我给它一个UUID列现在我创建了一个视图现在，我创建了两个接收视图中的数据<e

浏览 1提问于2021-05-14得票数 1

回答已采纳

2回答

谓词下推vs布隆过滤器

、

在寻找大数据上的查询优化时，尤其是在ORC文件上，我遇到了两种可能的谓词下推和Bloom过滤器。谓词下推帮助我们避免读取不必要的条带，这有助于减少IO，但对我来说，Bloom Filter似乎也有相同的目的，除了以下几点。对于谓词下推，我们不需要在编写ORC文件时显式创建任何工件，而对于Bloom filters，我们需要在写入ORC文件时配置列。谢谢Santosh

浏览 0提问于2019-02-11得票数 2

3回答

将文件保存到Parquet时，分区列被移动到行尾

、

对于给定的DataFrame，在成为saved到parquet之前，这里是一个模式:注意，centroid0是第一个列，是StringType。 path=/git/block/target/scala-2.11/test-classes/data/output/blocking/out//level1/clusters 下面是从保存的parquet读

浏览 4提问于2018-06-21得票数 5

回答已采纳

2回答

如何在读取spark* dataframe时从csv文件中删除列*

、、、

我正在尝试从csv文件创建spark数据帧，但是我不想在数据帧中包含原始数据中的特定列。在设置架构或读取csv文件时，是否可以这样做？

浏览 35提问于2018-08-01得票数 0

2回答

如何解压拼图文件？

、、、、

我有一个大小约为60MB的test.parquet文件。使用下面的脚本，我发现拼图文件的列压缩是GZIP。用python如何解压这个GZIP压缩的拼图文件？

浏览 29提问于2021-07-02得票数 1

2回答

直接查询文件与读取文件后查询数据帧

、、、

方法1:以下列方式直接查询拼花文件：和df = spark.read.parquet(path_to_parquet_file)和df.createOrReplaceTempView("sample") val sqlDF =

浏览 1提问于2018-09-27得票数 1

回答已采纳

1回答

推送过滤器如何处理数据库中的Parquet文件？

、、

pushedFilters在使用拼花文件时是如何工作的？ HighVolume_wofilter = spark.read.parquet("/FileStore/shared_uploadsPushedFilters: [In(originating_base_num, [B02617,B02

浏览 6提问于2022-08-31得票数 1

1回答

在_spark_metadata中什么也没有发现

、、

我试图从一个特定的文件夹中读取CSV文件，并将相同的内容写入到本地pc上不同位置的其他CSV文件中，以供学习。我可以读取文件并在控制台上显示内容。但是，如果我想将它写入指定输出目录下的另一个CSV文件，则会得到一个名为"_spark_metadata“的文件夹，其中不包含任何内容。location directory> ) userSchema = StructType().add("nam

浏览 3提问于2018-06-09得票数 0

回答已采纳

1回答

如何按n行提取数据集内容n行？

我必须将Dataset的结果输出到Postgis (空间)数据库中。Spark不处理它，我不得不编写不能序列化的特定代码。这意味着我不能使用dataset.foreach(...)方法，我必须从外部Spark任务执行数据库插入。和一个只返回数据集的n行。是否有一种按顺序读取数据集的方法，以便我可以从开始到结尾<

浏览 1提问于2019-09-14得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在读取spark文件后未保留列顺序

针对结构值的Spark -Hive集成-空输出

使用通配符读取物理分区的数据

验证火花放电数据帧列类型的可靠方法

通过另一列的值初始化列表

模式在吡咯烷酮数据中的应用

Pyspark:仅从嵌套的json数据中读取特定字段

更改拼花文件的列值，而不更改拼花文件的名称，使_spark_metadata不被更改

在不更改列名的情况下创建PySpark数据框

星火调度延迟的求取

如何为火花中的多个数据文件生成相同的UUID？

谓词下推vs布隆过滤器

将文件保存到Parquet时，分区列被移动到行尾

如何在读取spark* dataframe时从csv文件中删除列*

如何解压拼图文件？

直接查询文件与读取文件后查询数据帧

推送过滤器如何处理数据库中的Parquet文件？

在_spark_metadata中什么也没有发现

如何按n行提取数据集内容n行？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐