从错误的JSON合并Spark RDDs

、、、

我有很多json文件，但是它们的格式不适合Spark。我不想编写代码来专门将它们转换为正确的格式，通过规范化每一行上的每个字典。import json df = sc.wholeTextFiles(os.path.join(jso

浏览 1提问于2016-07-05得票数 0

回答已采纳

2回答

为什么斯派克在使用Kryo序列化时表现更差？

、、、、

我为我的星火作业启用了Kryo序列化，启用了该设置要求注册，并确保我的所有类型都已注册。val conf = new SparkConf() 我用我的数据示例手动调用了serialize方法对Spark的org.apache

浏览 5提问于2017-01-09得票数 16

1回答

如何在火花放电中压缩多个RDDs？

、、、

在spark中，有zipPartitions将多个RDDs合并为一个。然而，没有这样的方法可用的吡火花RDD。如果我多次使用zip，那么我会为每个rdd创建一个新的数据格式，这不是我想要的。如何才能将多个RDDs压缩到一个火星雨中？

浏览 2提问于2022-02-06得票数 1

回答已采纳

1回答

RDDs在spark中能持续多久？

、、、

我已经写了一个程序，在其中我将RDD持久化到spark stream中，这样一旦新的RDD来自spark stream，我就可以将以前缓存的RDD与新的RDD连接起来。有没有办法为这个持久化的RDDs设置生存时间，这样我就可以确保我不会加入我在上一个流周期中已经得到的RDDs。另外，如果有人能解释并指出RDDs中的持久化是如何工作的，那就太好了，比如当我从

浏览 1提问于2015-07-15得票数 1

2回答

触发本地rdd写入到本地Cassandra DB

、、、

我有一个DSE集群，集群中的每个节点都在运行spark和Cassandra。当我从Cassandra加载数据到spark rdd并在Rdd上执行一些操作时，我知道数据将分布到多个节点中。在我的例子中，我想把这些rdds从每个节点直接写到它的本地Cassandra dB表中，有没有办法做到这一点。如果我执行普通的rdd收集，来自spark节点的所有数据将被合并，并返回到带有驱动程序

浏览 3提问于2020-10-20得票数 1

1回答

在PySpark中加入和乘以RDDs

、、、

我有两个RDDs，我想把它们乘以键。这可以通过合并两个RDD并将元素乘以，或者通过在不合并RDD的情况下乘以RDD来实现。假设我有这两个RDDs：rdd2 = [("dog", 9), ("ox", 2), ("cat", 2)]multiplied_rdd = [(

浏览 4提问于2021-12-17得票数 0

1回答

当您可以在spark中完成大部分工作时，为什么要使用火花核心API (RDD)？

、、

我正在学习大数据处理的火花。人们建议使用HiveContext而不是SparkSqlContext。还建议使用dataframes而不是直接使用rdd。spark似乎对于查询计划器来说是高度优化的，因此，与通过scala (或python.)使用Core (RDD)相比，使用spark似乎是一个更好的选择。我遗漏了什么吗？

浏览 0提问于2016-03-13得票数 1

回答已采纳

1回答

从技术角度看RDD与Dataset/Dataframe的关系

我试图从技术角度理解RDDs和Dataframes/Datesets之间是否存在关系。RDDs通常被描述为Spark中的基本数据抽象。在我的理解中，这意味着Dataframes/Datasets也应该基于它。在原始Spark SQL Paper中，图1和图3指向此连接。但是，我还没有找到任何关于这个连接的文档(如果它存在的话)。所以我的问题是:Dataframe/Datasets是基于RDDs</

浏览 10提问于2020-07-24得票数 0

回答已采纳

1回答

加入两个RDD[String] -Spark* Scala*

、、、、

我有两个RDDS：rdd2 [String,String,String]: Name, Address, Landmark 但是我得到了一个错误：join应该加入RDDString，输出

浏览 1提问于2016-05-12得票数 2

2回答

通过thrift服务器从web浏览器访问Spark* RDDs - java*

、、

我们已经使用Spark 1.2.1和Java处理了我们的数据，并存储在Hive表中。我们希望通过web浏览器以RDDs的形式访问这些数据。我阅读了文档，并理解了完成任务的步骤。我无法找到通过thrift服务器与Spark SQL RDDs进行交互的方法。我找到的示例在代码中有以下行，但我在Spark 1.2.1Java API文档中找不到对应的类。HiveThriftServer2.startWi

浏览 1提问于2015-04-24得票数 3

1回答

如何使用spark上下文访问web URL

我尝试使用textFile方法从spark-shell中使用WEB，但出现错误。也许这不是正确的方式。所以谁能告诉我如何从火花上下文访问web URL。我使用的是spark版本1.3.0；Scala版本2.10.4和Java 1.7.0_21hduser@ubuntu:~$ spark-shell Spark assembly has beenorg.apache.spark.rdd.RDD$$anonfun$

浏览 0提问于2015-04-20得票数 9

回答已采纳

1回答

Apache spark* :从xml文件或Json读取和替换数据库*

、、、、

我使用的是带有MS SQLServer 2012的Apache Spark 1.3.0。数据库非常大，在服务器启动时将其加载到RDDs中需要花费大量时间。我现在正在尝试将数据库表转换为XML o JSON格式，并在应用程序中以RDDs格式加载这些文件，以减少服务器启动时间。如果有人

浏览 1提问于2015-07-04得票数 0

1回答

如何知道spark流窗口中的RDDs是否已完成spark作业？

、、

我正在阅读Spark流媒体应用程序中来自Kafka的消息。有一个限制，我必须首先从每个分区中收集错误记录&在spark窗口中的RDDs，然后在驱动程序上处理它们。我将在每个Spark窗口中获得4个

浏览 2提问于2018-10-12得票数 0

1回答

如何在Spark* Streaming上下文中创建作业日志？*

、、

我目前正在对我的Spark流媒体应用程序进行性能测试。总而言之，我通过套接字连接接收JSON消息，每秒一条消息。然后，我使用Spark Streaming方法将消息作为RDDs处理，最后将生成的RDDs打印到数据库。这是我的问题:每当我想要检查块处理时间或调度延迟等时，我需要转到端口4040上的Spark UI。我想做的是在程序运行时使用这些值创建一个Log，并将其作为txt文件存储在某个目录中。

浏览 0提问于2016-05-06得票数 1

1回答

使用PySpark实现MongoDB到Elasticsearch

、、

我想使用PySpark将我的MongoDB集合集成到Elasticsearch中。我有MongoDB的连接字符串，但我不知道如何构造代码结构或指定一些参数。有人能给我创建这个任务的代码示例吗？

浏览 20提问于2021-11-10得票数 0

2回答

将成对RDD中的值相减

、

我是Scala和Spark的新手。有两个RDDs，比如RDD_B= (keyA,3)，(KeyB,7) 如何计算: RDD_A-RDD_B，这样我得到(keyA,2)，(KeyB,3

浏览 32提问于2020-05-18得票数 0

1回答

如何解决火花放电中的org.apache.kafka.clients.producer.KafkaProducer.flush()V错误java.lang.NoSuchMethodError

、、、

我从一个Kafka主题中读到了一些消息，对于每个rdd，都执行函数proccess_rdds。()) ssc.awaitTermination()调用o186保存时发生错误。火花版本: 2.4.5 非常奇怪的是，这个脚本有时工作时没有错误。

浏览 6提问于2020-06-02得票数 1

1回答

Apache spark* shell :如何设置分区数？*

Apache spark shell上下文:使用shell时如何设置分区数量:在我正在审阅的文档中没有明确说明。是默认的2个分区吗？

浏览 13提问于2018-09-05得票数 0

1回答

数据可以在Apache /Dataframe中动态加载吗？

数据可以动态加载，还是已经预加载到RDD/DataFrame中？

浏览 3提问于2015-09-01得票数 0

回答已采纳

1回答

星火中的分区是什么？

、

我的理解是，当我们从源和位置读取到任何特定的Datatset时，数据集就可以被分割成多个sub-Datasets，这些sub-Datasets被称为分区，以及它在集群中分布的位置和方式。是对的吗？当我读到一些网上文章时，我产生了怀疑，上面写着这种状态打破了我的地位。根据上述状态，RDDs or Data

浏览 4提问于2020-09-16得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

为什么斯派克在使用Kryo序列化时表现更差？

如何在火花放电中压缩多个RDDs？

RDDs在spark中能持续多久？

触发本地rdd写入到本地Cassandra DB

在PySpark中加入和乘以RDDs

当您可以在spark中完成大部分工作时，为什么要使用火花核心API (RDD)？

从技术角度看RDD与Dataset/Dataframe的关系

加入两个RDD[String] -Spark* Scala*

通过thrift服务器从web浏览器访问Spark* RDDs - java*

如何使用spark上下文访问web URL

Apache spark* :从xml文件或Json读取和替换数据库*

如何知道spark流窗口中的RDDs是否已完成spark作业？

如何在Spark* Streaming上下文中创建作业日志？*

使用PySpark实现MongoDB到Elasticsearch

将成对RDD中的值相减

如何解决火花放电中的org.apache.kafka.clients.producer.KafkaProducer.flush()V错误java.lang.NoSuchMethodError

Apache spark* shell :如何设置分区数？*

数据可以在Apache /Dataframe中动态加载吗？

星火中的分区是什么？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐