spark大数据_在spark上读取非常大的xml文件数据集_大数据spark - 腾讯云开发者社区

、

我们正在使用spark 2.4.3运行一个结构化的流式处理过程，它从kafka读取数据，转换数据(使用udf平面化并创建一些列)，然后将数据写回kafka到不同的主题。正如我上面解释的那样，我们没有聚合，也没有在数据集上使用持久化。我们注意到的是堆内存在不断增长。有什么想法吗？

浏览 17提问于2019-07-08得票数 1

1回答

SortMergeJoin不更改为广播连接

、

我有两个数据文件，比如sDF (小尺寸)和bDF (大尺寸)。我正在尝试使用BroadCastJoin加入他们。我调用了星火外壳并通过查询验证相同：+--------------------+-----+

浏览 0提问于2019-09-03得票数 0

3回答

如何从oracle数据库中提取数据并保存到Google云平台

、

需要从oracle数据库中提取数据并存储在Google云平台中。数据大小约为10 TB。有没有可能通过Spark？数据必须每月传输一次。在GCP中存储和处理的数据如下： Oracle数据库到云存储(不必做CSV导出)，然后它将是干净的，并准备在Dataprep中，这将通过数据流进一步处理，最后它将被存储在Big Query下(从大查询数据科学家将使用数据来创建他们的模型我正在考虑从spark

浏览 2提问于2019-11-17得票数 0

1回答

星星之火:将大型MySQL表读入DataFrame失败

、

我试图编写一个作业，将数据(每天一次)从MySQL表移动到存储在Amazon S3上的Parquet / ORC文件的Hive表中。其中一些表相当大：~ 300 m记录和200 GB+ size (如phpMyAdmin所报告)。目前，我们正在为此使用sqoop，但出于以下原因，我们希望迁移到Spark：我已经能够在小型MySQL表

浏览 1提问于2018-03-07得票数 7

3回答

从数据集行中选择列

、、

我想在Spark数据集上循环，并根据每行的特征将特定值保存在Map中。我是Spark和Scala的新手，所以我加入了一个简单的例子来说明我在python中要做的事情。[row['id']] = row['surname'] mydict[row['id']] = "Random lad" 其中，data是org.apache.spark.sql.Datasetorg.apache.spark</em

浏览 15提问于2019-10-22得票数 0

回答已采纳

1回答

寻找Spark* SQL的ARRAY_CONTAINS替代解决方案*

、

我使用嵌套数据结构(数组)来存储Spark表的多值属性。我在Spark SQL中使用array_contains(数组，值)来检查数组是否包含值，但似乎存在性能问题。一个大的Spark表需要很长的时间。有没有其他的解决方案。

浏览 0提问于2018-09-23得票数 0

1回答

当Spark处理的数据大于内存容量时？

、、

据我所知，Spark使用内存缓存数据，然后在memory.But中计算数据，如果数据比内存大怎么办？我可以阅读源代码，但是我不知道调度工作是由哪个类完成的？或者你能解释一下Spark如何处理这个问题的原理吗？

浏览 0提问于2014-04-23得票数 4

1回答

替代other_column中WHERE列的快速Spark

、、

我正在寻找一种快速的PySpark替代方案WHERE foo IN (SELECT baz FROM bar) 预先收集到Python列表中绝对不是一个选择，因为处理的数据帧非常大

浏览 2提问于2020-05-18得票数 2

1回答

是否有解决"org.apache.spark.SparkException: Kryo序列化失败:缓冲区溢出。可用: 0，必需: n“错误的解决方法？

、、、

我正在通过spark-submit运行一个pyspark作业，在这个作业中，在应用一些额外的逻辑之前，首先将两个大型镶嵌板桌子连接在一起。提交后，所有任务都会失败，日志中会显示以下内容： Caused by: org.apache.spark.SparkException: Kryo serialization failed: BufferTo avoid this, increase spark.kryoserializer.buffer.max value *n只是一个变量，表示需要多少内存。该值取决于我将spark.

浏览 87提问于2020-01-18得票数 0

2回答

Apache星火体系结构

、、

我知道Spark正在尝试处理存储在同一个节点上的HDFS中的数据(以避免网络I/O)。例如，我试图在这个1Tb文本文件中进行单词计数。星火何时不会使用HDFS上的本地数据？如果我需要完成更复杂的任务，当每个工作人员的每一次迭代的结果需要转移到所有其他工作人员(洗牌？)时，我是否需要自己将它们写到HDFS，然后读取它们呢？

浏览 9提问于2015-06-11得票数 7

回答已采纳

3回答

以高效的方式从BigQuery读取到Spark？

、、、

当使用从BigQuery读取数据时，我发现它首先将所有数据复制到Google Cloud Storage。然后将这些数据并行读取到Spark中，但当读取大表时，复制数据阶段需要很长时间。那么有没有更有效的方法将数据从BigQuery读取到Spark中呢？另一个问题:从BigQuery阅读由2个阶段组成(复制到GCS，从GCS并行阅读)。复制阶段是否受Spark簇大小的影响，还是需要固定的时间？

浏览 6提问于2017-01-04得票数 7

回答已采纳

1回答

Apache比较文件和SQL数据

、、

我将使用Apache Spark来处理大文本文件，其中在处理周期中，将文本部分与来自大型SQL表的数据进行比较。我对Apache Spark完全陌生，虽然我确信Subtask #1是“他的人”，但我不能完全肯定，Subtask #2是否可以由火花(我的意思是说，以有效的方式处理)。问题是Spark如何处理大SQL中的可迭代选择(也许，尽可能多地缓存？)在并行和分布式环境中？

浏览 3提问于2015-03-05得票数 0

回答已采纳

1回答

如何使用python对数千行数据执行ETL？

、、、、

我有一个pgAdmin数据库，它在geojson format.Using中包含数百万行，这个表是我创建的Tableau仪表板。由于行包含geojson格式的数据，所以我必须这样查询：jsondata -> 'properties' ->> 'qq',, jsondata'updatedAt'as bigint)/1000 as int) * INTERVAL &#x

浏览 4提问于2020-04-10得票数 0

2回答

如何将spark数据框保存为excel格式？

、

对于csv，我已经这样做了:将csv文件保存在每个节点中，并使用DataBricks spark-csv库将其附加到服务器中。我不知道在Excel中该怎么做。有人能给我建议和点子吗？

浏览 22提问于2017-04-11得票数 0

2回答

广播加入火花不工作左外

、、、

我有一个小表(2k )记录和一个大表(5mil)记录，我需要从小表中获取所有数据，并且只从大表中匹配数据，为了实现这一点，我执行了下面的查询select /*+ broadcast(small)*/ small

浏览 1提问于2020-07-04得票数 1

1回答

如何减少spark批处理作业创建开销

我们正在考虑的选项之一是在批处理模式下使用spark，而不是Apache Hadoop YARN。然而，我读到提交批处理作业给spark带来了巨大的开销。这是一种我们可以减少/消除这种开销的方法吗？

浏览 1提问于2016-05-25得票数 0

1回答

pyspark查找数据帧中超出范围的值

、

我在pyspark里有两个数据帧。我正在尝试将一个数据帧与另一个数据帧进行比较，以查看值是否在范围内。 Dataframe dfcompare：我正在寻找的输出：我目前拥有的代码如下： compare= df.compare.fillna(0) df = spark_df.agg(*(F.count(F.when((F.col(c) > co

浏览 0提问于2021-03-28得票数 1

0回答

等同于MYSQL时间的Spark* time数据类型*

、、、

我正在通过JDBC从MYSQL导入数据到spark，其中一列有时间类型(SQL类型time和JDBC类型java.sql.Time)和大的小时值(例如: 168:03:01)。Spark将它们转换为时间戳格式，并导致读取三位数hour.How时出错，以处理Spark中的时间类型

浏览 5提问于2016-07-14得票数 3

1回答

我是否可以使用memoization来缓存从spark作业读写的hbase中的数据？

、、、、

在一个有Spark任务的Scala项目中，我使用了Spark-Hbase连接器(SHC)来连接从Hbase数据读取。请求的数量非常大，我正在尝试使用缓存的数据一段时间。我想知道我是否能做到这一点。

浏览 17提问于2019-09-28得票数 0

1回答

Pyspark dataframe拼接vs.增量:不同的行数

、、、

我在HDFS上以Delta格式写入了数据。据我所知，Delta正在以拼接的形式存储数据，只是在它上面增加了一个具有高级功能的层。但是，当使用Pyspark读取数据时，如果使用spark.read.parquet()或spark.read.format('delta').load()读取dataframe，我会得到不同的结果 df= spark.read.format('delta').load("my_data") df.cou

浏览 28提问于2021-01-27得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

k8s上的Spark结构化流媒体

SortMergeJoin不更改为广播连接

如何从oracle数据库中提取数据并保存到Google云平台

星星之火:将大型MySQL表读入DataFrame失败

从数据集行中选择列

寻找Spark* SQL的ARRAY_CONTAINS替代解决方案*

当Spark处理的数据大于内存容量时？

替代other_column中WHERE列的快速Spark

是否有解决"org.apache.spark.SparkException: Kryo序列化失败:缓冲区溢出。可用: 0，必需: n“错误的解决方法？

Apache星火体系结构

以高效的方式从BigQuery读取到Spark？

Apache比较文件和SQL数据

如何使用python对数千行数据执行ETL？

如何将spark数据框保存为excel格式？

广播加入火花不工作左外

如何减少spark批处理作业创建开销

pyspark查找数据帧中超出范围的值

等同于MYSQL时间的Spark* time数据类型*

我是否可以使用memoization来缓存从spark作业读写的hbase中的数据？

Pyspark dataframe拼接vs.增量:不同的行数

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐