为什么Spark在没有调用任何操作的情况下也会读取数据？

、、、

在使用spark.read.json时，我对Spark上的延迟加载感到困惑。(json_data_files) 而HDFS上的JSON数据是按年和月(year=yyyy，month=mm)分区的，我想检索该数据集的所有数据。对于此代码块，我只从定义的位置读取数据，并且没有执行任何操作。但我在<

浏览 17提问于2021-10-13得票数 0

回答已采纳

1回答

Spark -多次使用数据帧，无需多次卸载

、、、

如何才能复制数据帧而不将其再次卸载到redshift？val companiesData = spark.read.format("com.databricks.spark.redshift") val result = df.select("companynumber") }在这种情况

浏览 1提问于2018-03-08得票数 0

1回答

循环中的Pyspark延迟计算速度太慢

、、、

首先，我想让您知道，我在spark方面仍然是一个新手，并且正在习惯惰性评估的概念。这里是我的问题：我有两个通过读取CSV.GZ文件加载的spark DataFrames。我试图做的是合并这两个表，以便根据我在第二个表上的键拆分第一个表。Y个不相交的表，其中Y是我在合并后的表中找到的不同'Dept‘值的数量。： sp

浏览 35提问于2019-01-22得票数 1

回答已采纳

2回答

内存管理火花

、、

1.)我理解“星火的操作人员如果数据不适合内存，就会将数据泄漏到磁盘上，允许它在任何大小的数据上运行良好”。如果这是真的，为什么我们会得到OOM (内存中的)错误？3.)与Hive相比，Spark更容易受到OOM的影响

浏览 4提问于2020-07-17得票数 0

回答已采纳

1回答

Spark如何处理超出其容量的内存

假设我的Spark集群有100G内存，在Spark计算过程中，会生成更多大小为200G的数据(新数据帧、缓存)。在这种情况下，Spark会将部分数据存储在磁盘上，还是只会使用OOM

浏览 235提问于2020-07-14得票数 0

回答已采纳

1回答

Snowflake : SQL访问控制错误:权限不足，无法对架构进行操作

、、

我已经编写了aws glue job，我试图将雪花表作为spark数据帧读取，并尝试将spark数据帧写入snowflake表。在这两种情况下，我的工作都无法显示“操作模式的权限不足”。但是当我在雪花cli上直接写insert语句时，我能够插入数据。所以基本上我有插入权限。那么，当我尝试从dataframe中插入数据或从snowflake表中读取数据</e

浏览 0提问于2019-02-09得票数 0

2回答

Spark.read.csv()是转换上的操作吗

、、

在“火花权威指南”一书中，比尔说，阅读是一种转变，它是一种狭义的转变，据我所知，Job是一个叫做的动作。此外，如果我尝试在读取CSV时输入一些选项，我会在spark UI中看到另一个作业，例如，当我们运行以下代码时，在<

浏览 1提问于2021-05-01得票数 2

1回答

我有一个包含大约1亿条记录(~25 100，~5列)的单表的MySQL数据库。使用Apache，我通过JDBC连接器提取这些数据，并将其存储在DataFrame中。我已经在Spark的Java中实现了这一点，但是它太慢了(就我的目的而言)，因为我将大量数据从DataFrame复制到java.util.Vector和java.util.List (以便能够迭代所有记录并进行预处理)，然后返回到DataFrame (因为

浏览 2提问于2016-06-02得票数 0

回答已采纳

4回答

如何在Spark* sql中访问HIVE ACID表？*

、、、

如何在Spark sql中访问HIVE ACID表？

浏览 2提问于2018-11-08得票数 1

2回答

当文件不能放入spark的主内存时，spark如何读取大文件(‘s)

、、

在这些情况下，大文件会发生什么情况？ 1) Spark从NameNode获取数据的位置。Spark是否会在同一时间停止，因为根据来自NameNode的信息，数据大小太长？2) Spark根据datanode块大小对数据进行分区，但不能将所有数据存储到主存中。这里我们不使用StorageLevel。那么这里会发生什么呢？3) Spark做数据分区，有些数据会存储<e

浏览 0提问于2017-10-09得票数 30

回答已采纳

2回答

spark.read或spark.sql是惰性转换吗？

、、

在Spark中，如果源数据在两个操作调用之间发生了变化，为什么我仍然得到以前的o/p，而不是最近的。通过DAG，一旦调用操作，所有操作都将被执行，包括读取操作。难到不是么？例如，从火花表中读取df = spark.sql("select * from dummy.table1")

浏览 6提问于2021-11-30得票数 2

2回答

使用分区JSON的Spark分区投影/下推和模式推理

、、、

我想以JSON格式读取分区数据的子集，使用spark (3.0.1)从JSON推断模式。x && $"dt" >= y && $"dt" <= z)读取时，spark尝试读取整个数据集以推断模式。(请注意，在这种情况下，除非我指定basePath，否则spark也会丢失type和dt列，但这没问题，

浏览 20提问于2021-01-27得票数 4

1回答

Spark和Metastore关系

、、

我知道Hive Metastore用于存储我们在HIVE中创建的表的元数据，但是为什么spark需要Metastore，Metastore和Spark之间的默认关系是什么为什么即使iam没有使用任何sql库，spark by defaults也<

浏览 8提问于2017-09-21得票数 4

1回答

即使对等体挂断，poll()也可以返回POLLIN事件吗？

、、、、

我看到，即使在对等体关闭套接字之后，poll()系统调用也会返回POLLIN事件。我看到POLLIN和POLLERR集。即使在read()调用返回-1之后，这种情况也会继续发生。只有在没有轮询的情况下，我的逻辑才会处理POLLERR，以确保在套接字断开连接之前读取任何已经到达的数据包。因此，我

浏览 2提问于2017-05-07得票数 0

1回答

在databricks中，如何将表数据加载到数据帧中？逐行还是批量？

、、

我需要将一个包含大约1400万条记录的表中的几列加载到dataframe中。一旦表被加载，我需要根据两列中出现的值创建一个新列。我希望在将表加载到dataframe中时，为新列编写逻辑以及select命令。例如： df = spark.read.table(tableName) .withColumn('newColumnName首先将这几列的表加载到df中，然后在已加载<em

浏览 12提问于2020-12-20得票数 0

2回答

在Spark* SQL中加入分区以获得更好的性能*

、

我是Spark SQL的新手。我有一个关于连接期间分区使用的问题假设有一个名为test1的表，它保存在10分区(parquet)文件中。还假设spark.sql.shuffle.partitions = 200。问:如果使用test1对另一个表进行Join，Spark会使用10分区(这是表所在分区的数量)执行操作，还是会在200分区中对表进行重新分区(根据随机分区的值)，然后执行连接？在这种情况下，连接将产生更好<

浏览 42提问于2021-01-30得票数 0

1回答

使用spark和spark* streaming构建服务*

、、、

我读过一些关于spark streaming的文章，我想知道是否有可能使用rabbitmq作为代理从自定义来源流式传输数据，并通过spark流提供这些数据，Spark的机器学习和图形处理算法将在这些数据上执行，并将其发送到其他文件系统/数据库/仪表板或客户接收器。附注:我用python编写代码，我没有任何使用spark的经验，我可以称之为我试图

浏览 5提问于2020-09-02得票数 0

1回答

在火花代码中多次引用DF时(如果我们不使用persist)，每次使用DAG是否都会创建DataFrames？

我在面试中遇到了这个问题。操作顺序如下。基于某种条件过滤数据。我很想了解下面的情况一旦文件被读取，DF不会留在内存中直到火花作业完成吗？如果在进一步的步骤中没有使用DF，那么即使将它从内存中删除，我们也不介意。但是如果它是在</e

浏览 1提问于2020-07-25得票数 0

回答已采纳

2回答

是否会在每次操作中从外部源读取数据？

、、

在星火外壳上，我使用下面的代码从csv文件中读取 val df = spark.read.format("org.apache.spark.csv").option("header", "true").option("mode", "DROPMALFORMED").csv("/opt/person.csv") //spark here is the

浏览 5提问于2016-12-05得票数 1

回答已采纳

1回答

在上调用`cache‘是否消除了以后对Hive/HDFS的调用？

、、

我们有一个spark应用程序，它从存储在HDFS中的parquet文件上构建的HMS表中读取使用spark的数据。spark应用程序运行在单独的hadoop环境上。我们使用委托令牌来允许spark应用程序对Kerberized /HDFS进行身份验证。我们不能也不应该使用键标签直接验证spark应用程序。由于委托令牌过期，经过一段时间后，我们的<

浏览 7提问于2022-01-10得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Spark -多次使用数据帧，无需多次卸载

循环中的Pyspark延迟计算速度太慢

内存管理火花

Spark如何处理超出其容量的内存

Snowflake : SQL访问控制错误:权限不足，无法对架构进行操作

Spark.read.csv()是转换上的操作吗

避免在Apache中使用Java数据结构以避免复制数据

如何在Spark* sql中访问HIVE ACID表？*

当文件不能放入spark的主内存时，spark如何读取大文件(‘s)

spark.read或spark.sql是惰性转换吗？

使用分区JSON的Spark分区投影/下推和模式推理

Spark和Metastore关系

即使对等体挂断，poll()也可以返回POLLIN事件吗？

在databricks中，如何将表数据加载到数据帧中？逐行还是批量？

在Spark* SQL中加入分区以获得更好的性能*

使用spark和spark* streaming构建服务*

在火花代码中多次引用DF时(如果我们不使用persist)，每次使用DAG是否都会创建DataFrames？

是否会在每次操作中从外部源读取数据？

在上调用`cache‘是否消除了以后对Hive/HDFS的调用？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐