Spark2_spark2 kafka_spark2 写入oracle - 腾讯云开发者社区

当火花从oozie调用蜂巢时，异常将引发“org.apache.hadoop.hive.ql.metadata.HiveException”：java.lang.ClassNotFoundException“

、、、、

我有火花作业将数据保存到hdfs，然后将相同的数据保存到Hive表中。当我在木星上运行时，它成功地运行了。但是，当我在oozie中运行它时，当它达到写入数据到蜂箱的步骤时，它就会引发后续异常。下面是我的代码，后面跟着异常，然后是工作流.xml： # coding: utf-8 # In[10]: import os JARS_HOME = "hdfs:///dataengineering/jars" os.environ['PYSPARK_SUBMIT_ARGS'] = '--jars '+JARS_HOME+'/ojdbc6.j

浏览 10提问于2020-04-14得票数 1

2回答

tar + gz文件来自文件夹，因为它不需要放入所有子文件夹中

、、

我们希望tar.gz所有以下的jars文件 2.6.4.0-91/spark2/jars/super-csv-2.2.0.jar 2.6.4.0-91/spark2/jars/univocity-parsers-2.2.1.jar 2.6.4.0-91/spark2/jars/validation-api-1.1.0.Final.jar 2.6.4.0-91/spark2/jars/xbean-asm5-shaded-4.4.jar 2.6.4.0-91/spark2/jars/xercesImpl-2.9.1.jar 2.6.4.0-91/spark2/jars/xmlenc-0.52.ja

浏览 0提问于2018-09-06得票数 0

回答已采纳

1回答

使用UDF时忽略条件

、、、、

假设您有下面的pyspark： data= [('foo',), ('123',), (None,), ('bar',)] df = sqlCtx.createDataFrame(data, ["col"]) df.show() #+----+ #| col| #+----+ #| foo| #| 123| #|null| #| bar| #+----+ 接下来的两个代码块应该做同样的事情--如果列不是null，则返回大写字母。但是，第二个方法(使用udf)会产生一个错误。方法1：使用pyspark.sql.functions.

浏览 0提问于2018-04-03得票数 6

回答已采纳

1回答

在类路径中获取错误，但是添加了jars。

、、

我收到了一个错误，而提交一个火花程序。下面是错误 client token: N/A diagnostics: User class threw exception: org.apache.spark.sql.AnalysisException: Can not load class 'brickhouse.udf.collect.NumericRange' when registering the function 'numeric_range', please make sure it is on the classpath; 我正在使用下

浏览 3提问于2020-05-04得票数 1

回答已采纳

1回答

将普通CDF应用于火花数据格式列

、

我试图在我的Spark中创建一个新列，其PySpark计算为普通的CDF，如下代码所示： from pyspark.sql.types import FloatType from scipy.stats import norm mylist = [0.083, 0.219, 0.126] df = spark.createDataFrame(mylist, FloatType()) df.show() df2 = df.withColumn("var2", norm.cdf(col("value"))) 但我得到了以下错误： TypeErrorTraceba

浏览 5提问于2019-12-16得票数 0

1回答

如何在spark.history.fs.cleaner中启用Spark2？

、、

我已经为我的Spark2和星火配置提供了Spark2。它用于保持/火花-历史/清洁，但没有为/火花2-历史做任何事情。对为什么不起作用有什么想法吗？

浏览 4提问于2017-11-30得票数 2

1回答

Spark应用程序继续运行，似乎处于挂起状态- org.apache.spark.sql.hive.thriftserver.HiveThriftServer2

、、、

我在Hadoop集群中使用的是HDFS 2.7.3和Spark2 2.0.0。当我启动Spark2 Thrift服务器时，它成功地启动了，但从配置单元用户自动开始运行一个作业，它似乎永远挂起。如果我手动终止该作业，它将再次使用新的applicationId启动一个新作业。但是如果我停止Spark2 Thrift服务器，它就会终止作业。你能帮我理解一下这个问题吗？提前谢谢。

浏览 0提问于2017-04-21得票数 3

2回答

火花不能腌制method_descriptor

、、、、

我收到一条奇怪的错误信息 15/01/26 13:05:12 INFO spark.SparkContext: Created broadcast 0 from wholeTextFiles at NativeMethodAccessorImpl.java:-2 Traceback (most recent call last): File "/home/user/inverted-index.py", line 78, in <module> print sc.wholeTextFiles(data_dir).flatMap(update).top(1

浏览 4提问于2015-01-25得票数 7

回答已采纳

2回答

Cloudera Spark2安装

、、、

我正在按照cloudera关于安装这个组件的说明在cloudera集群(评估版本)中安装Spark2。我下载了CSD，安装了它，使用了这个包下载了组件，分发了它，但是当我试图激活它时，我收到了这样的消息： SPARK2 (2.2.0.cloudera1-1.cdh5.12.0.p0.142354)所需的CDH (5.8及以上)包不可用。这是专题组的信息：版本: Cloudera Enterprise Data Hub Edition试用版5.12.1 (#6由jenkins在20170818-0807 git上构建:9bde611802535491d400e03c98ef694a

浏览 2提问于2017-10-31得票数 1

回答已采纳

1回答

Pyspark Conda saveAsTextFile文件已存在

、、、

我正在使用自定义的conda环境运行spark-submit作业。我设法使用yarn发布了conda环境，它运行起来没有任何问题。然而，当我尝试saveAsTextFile时，它总是在最后一步失败。在运行作业之前，我确保路径是空的，但不知何故，它是在我启动作业后创建的，并且之后在那里有一个临时文件夹。这个方法很像，而且script.py本身并不复杂，所有的东西(读文件，计数)都是通过打印到标准输出来工作的，我可以从执行器日志中读取它，但不能从savingAsTextFile中读取。由于此错误，所有其他执行器甚至都没有启动。我假设驱动程序会创建这个文件夹，创建一个临时的/flag文件来表明它

浏览 0提问于2020-03-19得票数 0

1回答

Spark FsHistoryProvider带来了两个月前的日志文件

目前，我使用的是HDP2.5中的spark2。当我检查Spark2的日志消息时，FsHistoryProvider正在重播旧的日志文件。当我找到申请id的时候，它是去年7月的日志。是否有任何建议更改配置以停止该操作？它导致了下面的错误消息。 java.util.concurrent.ExecutionException: java.lang.OutOfMemoryError: Java heap space 谢谢大家的帮助。

浏览 6提问于2017-10-12得票数 0

1回答

火花内存分数参数

、

我使用的是Hadoop的Cloudera发行版，使用的Spark2版本是2.2。我正在搜索位于以下链接的"Memory Management“部分中的内存管理参数：然而，在Cloudera Manager的spark2>配置链接中，我没有看到这些配置参数。我认为我的理解上有一些差距。如果要手动更改这些参数，请建议在何处查找。

浏览 0提问于2018-07-05得票数 0

1回答

Pyspark中的奇怪行为

、、、

我在PySpark中观察到一个奇怪的行为。也许你们中的一个会知道发生了什么。如果我这样做： def create_my_date(mydate): try: return mydate.strftime('%Y%m') except: return None df = df.withColumn( "date_string", F.udf(create_id, StringType())(df.mydate) ) df.filter(~df.mydate.isNotNull

浏览 34提问于2018-01-10得票数 0

1回答

当调用我的函数时，pyspark会失败

、、、、

我只是试着运行statefu的示例代码，但是它失败了。无法了解为什么会发生这种情况。在cloudera vm 5.13.3上使用3.6 python火花2.3 运行选项： --master local[*] --queue PyCharmSpark pyspark-shell 我的代码是： from pyspark import SparkConf, SQLContext from pyspark.sql import SparkSession from pyspark.streaming import StreamingContext from pyspark.sql.functions

浏览 2提问于2018-08-27得票数 0

1回答

在Spark 2解释器下使用Python与齐柏林飞艇

、

我已经在虚拟机上部署了HDP: 2.6.4 我可以看到，spark2没有指向正确的python文件夹。我的问题是 1)我怎样才能找到我的蟒蛇所在的位置？解决方案：键入whereis python，您将得到它所在位置的列表 2)如何更新现有的python库并向该文件夹添加新的库？例如，在CLI上等效于'pip install‘。什么都不清楚 3)如何使Zeppelin Spark2指向包含我可以更新的python文件夹的特定目录？-在Zeppelin上，有一个“编辑”按钮，可以更改到包含python的目录的路径。解决方案：转到齐柏林的解释器，找到spark2，让zepp

浏览 0提问于2018-05-30得票数 0

回答已采纳

2回答

Docker-撰写卷不递归地挂载

、、

我有一个坞式撰写文件，其中包含以下的卷映射。 volumes: - /opt/cloudera/parcels/SPARK2/lib/spark2:/opt/cloudera/parcels/SPARK2/lib/spark2 该目录的内容如下： rwxr-xr-x 13 root root 247 Nov 30 16:39 . drwxr-xr-x 3 root root 20 Jan 9 2018 .. drwxr-xr-x 2 root root 4096 Jan 9 2018 bin drwxr-xr-x 2 root root 39 Jan

浏览 2提问于2018-11-30得票数 1

回答已采纳

1回答

为什么Spark2只在一个节点上运行？

、、、

我在齐柏林飞艇上运行Spark2 (在HDP2.6中是0.7)，并且我正在做一个idf转换，它在很多小时后崩溃。它运行在一个集群上，有一个主节点和3个数据节点: s1、s2和s3。所有节点都有一个Spark2客户端，每个节点都有8个内核和16 RAM内存。我只是注意到它只在一个节点上运行，s3，有5个执行器。在zeppelin-env.sh中，我将zeppelin.executor.instances设置为32，将zeppelin.executor.mem设置为12g，并显示以下代码： export MASTER=yarn-client 我已经将yarn.resourcemanager.s

浏览 1提问于2017-11-24得票数 0

2回答

用python将火花2与HBase集成连接起来的jars

、、、

我在Spark2中使用pyspark，是否有任何jars将HBase与可用的pyspark连接。请帮我拿一下样本代码。

浏览 2提问于2018-01-12得票数 1

回答已采纳

1回答

如何在变量末尾添加字符串行？

、、、

我们的文件中有下面一行 more file USA_FORMAT="-XX:LOP83746=5M -XX:+YU3635-2837" 我们希望在USA_FORMAT变量的末尾附加以下字符串(行) /usr/jdk64/jdk1.8.0_112/man/man1/jarsigner.1 /usr/hdp/2.6.4.0-91/spark2/examples/jars 6 3 END 如何使用sed或Perl一行/其他方法在变量中追加行"usr/jdk64/jdk1.8.0_112/man/man1/jarsigner.1 /usr/hdp/2.6.4.0-91/sp

浏览 0提问于2019-03-13得票数 0

回答已采纳

1回答

pyspark和python未作为HDP 2.6.0.3-8堆栈的一部分安装

、、

我有一个HDP集群，其中安装了2.6.0.3。在其中一个没有连接到Ambari的网关节点上，我安装了hdp堆栈。在安装过程中，我安装了spark2。到目前为止一切都很好。但是当我查看它的时候，我没有发现其中有任何python或pyspark包吗？我必须单独安装它们吗？为什么pyspark包没有从HDP2.6.0.3-8堆栈安装spark2？

浏览 18提问于2020-02-26得票数 0

1回答

spark.yarn.jars - py4j.protocol.Py4JError:调用None.None时出错。跟踪：

、

我正在尝试使用spark2-submit on命令运行spark作业。集群上安装的spark的版本是cloudera的spark2.1.0，我正在使用conf spark.yarn.jars指定2.4.0版本的jars，如下所示- spark2-submit \ --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=/virtualenv/path/bin/python \ --conf spark.yarn.jars=hdfs:///some/path/spark24/*\ --conf spark.yarn.maxAppAttempts=1\

浏览 16提问于2020-08-15得票数 0

回答已采纳

1回答

Oozie Spark2 Java操作:如何关闭

、、、

我正在将现有的管道从spark 1.6.0迁移到spark 2.1.0(cdh 5.15.1)。我使用的oozie版本(4.1.0)不支持spark2操作，所以我们使用java操作来运行spark2作业。作业可以通过java action成功执行，但我面临的一个问题是，每当oozie工作流被终止时，spark应用程序都不会被终止，尤其是在运行集群模式时。我可以理解java操作在单独的容器中启动spark驱动程序，这是一个单独的jvm进程。我只是想知道是否有办法处理这种情况。

浏览 1提问于2019-03-30得票数 0

1回答

在persist中使用partitionBy()和持久化()

、、

我想优化我的脚本，做一个静音分区，并在Spark2.1中使用持久化()，但是在运行我的代码时，我有一个我不明白的错误。守则是： rdd = sc.textFile("path").map(lambdal:l.split(";")) rdd_pair=rdd.map(lambda a: (a[0], a)).PartitionBy(920).persist() rdd_pair=rdd_pair.combineByKey(lambda v:[v],lambda x,y:x+[y],lambda x,y:x+y) def fn(input_bag):

浏览 0提问于2018-03-05得票数 1

回答已采纳

1回答

如何在Scala中的木星笔记本中添加自定义jar

、、

我需要在Scala脚本中使用第三方jar (mysql)，如果我使用spark，我可以在启动命令中指定jar，如下所示： spark2-shell --driver-class-path mysql-connector-java-5.1.15.jar --jars /opt/cloudera/parcels/SPARK2/lib/spark2/jars/mysql-connector-java-5.1.15.jar 然而，我如何在木星笔记本上做到这一点呢？我记得有一种神奇的方法可以在pyspark中实现，我正在使用Scala，而且我不能更改我正在使用的内核的环境设置。

浏览 0提问于2019-03-15得票数 2

回答已采纳

1回答

我如何在Spark 2.0程序(实际上是pyspark 2.0)中编写正确的入口点？

、

今天，我想尝试一下Spark2.0的一些新特性，下面是我的程序： #coding:utf-8 from pyspark.conf import SparkConf from pyspark.sql import SparkSession spark = SparkSession.builder.master("local").appName('test 2.0').config(conf=SparkConf()).getOrCreate() df = spark.read.json("/Users/lyj/Programs/Apache/Spark2/

浏览 9提问于2016-07-28得票数 4

1回答

pyspark selectExpr不适用于多个列

、

当我添加多个列时，它会抛出错误，我们正在尝试Spark DataFrame selectExpr及其为一列工作。第一个是有效的，第二个是抛出错误。代码示例： df1.selectExpr("coalesce(gtr_pd_am,0 )").show(2) df1.selectExpr("coalesce(gtr_pd_am,0),coalesce(prev_gtr_pd_am,0)").show() 错误日志： >>> df1.selectExpr("coalesce(gtr_pd_am,0),coalesce(prev_gtr

浏览 3提问于2018-08-20得票数 0

回答已采纳

1回答

星火Java再分区

、

Java spark2 这两种说法有什么不同吗- Dataset<Row> Data; Data.repartition(new Column("key" )) ; and Data.repartition(Data.col("key" ) ;

浏览 0提问于2019-08-01得票数 0

回答已采纳

1回答

Spark 2.0 toPandas方法

、、

我有一个spark数据框，如下所示： topics.show(2) +-----+--------------------+--------------------+--------------------+ |topic| termIndices| termWeights| topics_words| +-----+--------------------+--------------------+--------------------+ | 0|[0, 39, 68, 43, 5...|[0.06362107696025...|[, m

浏览 8提问于2017-02-17得票数 5

2回答

阿帕奇星火对阿帕奇星火2

、

与Apache相比，Apache Spark2带来了哪些改进？从建筑的角度从应用的角度或更多

浏览 3提问于2016-10-21得票数 12

回答已采纳

2回答

何时在Spark2.0中使用rdd？

、、

使用新的SparkSQL API，我们似乎不再需要RDD了。由于RDD是昂贵的，我们似乎应该避免它。谁能解释一下什么时候是在Spark2中使用RDD的好时机？

浏览 2提问于2017-09-06得票数 3

回答已采纳

1回答

如何从cloudera管理器中删除已安装的csd文件

、、

尝试将spark2 2.0.0.Cloudera 2安装到脱机CDH5.11系统。将SPARK2 2_ON_SPARK2 2.1.0.Cloudera2.jar复制到名称节点服务器的/opt/cloudera/csd目录中，这是一个错误的版本，如在线指令页所示。由于脱机，安装如预期一样失败。然后将SPARK2-2.0.0.cloudera2-1.cdh5.7.0.p0.118100-el7.parcel及其sha文件复制到/opt/cloudera/parcel目录中，并安装、分发和激活服务。在从控制台启动服务时，可以看到下面的错误： CSD版本(2.1.0.Cloudera 2)与当前

浏览 0提问于2018-07-02得票数 1

1回答

带有参数值的pyspark筛选器不工作

下面是我试图运行的pyspark代码。我不能用filter替换这个值。请给我建议。 >>> coreWordFilter = "crawlResult.url.like('%"+IncoreWords[0]+"%')" >>> coreWordFilter "crawlResult.url.like('%furniture%')" >>> preFilter = crawlResult.filter(coreWordFilter) 20/02/11 09:19:

浏览 1提问于2020-02-11得票数 1

1回答

Oozie Spark2操作引发“多次向分布式缓存添加({dependencyJar})”。

、、

在尝试加载oozie spark2操作的依赖jar时，获取以下错误。在下面添加了workflow.xml。错误： 2019年-06-12 07:00:35,140警告SparkActionExecutor:523 - SERVERmanager-0 USERroot组- TOKEN[] APPspark wf 523 0068-190611183932696-oozie- ERROR W启动程序错误，原因:主类org.apache.oozie.action.hadoop.SparkMain，main()抛出异常，试图多次向分布式缓存中添加(hdfs://${nameNode}/${work

浏览 1提问于2019-06-12得票数 0

1回答

安装了HDP 3堆栈的Ambari服务配置中没有zeppelin.livy.principal

、、、、

根据这个，我应该在zeppelin或spark2的配置中找到zeppelin.livy.principal，但是没有这样的选项。

浏览 1提问于2018-12-02得票数 0

回答已采纳

3回答

无法编译火花流示例:获取updateStateByKey不是org.apache.spark.streaming.dstream.DStream错误的成员

、、

我想更好地理解星火流，所以我在它自己的目录中复制了StatefulNetworkWordCount.scala示例，并按原样粘贴它，创建了一个简单的sbt配置文件，并试图编译，但它似乎不起作用。为什么要抱怨API呢？有什么想法吗？最初的示例确实编译得很好，但是我想要修改它，而不必像默认设置的那样编译整个星火目录。谢谢!哑光 $ more build.sbt name := "Simple Project" version := "1.0" scalaVersion := "2.10.4" libraryDependencies += &#

浏览 0提问于2015-03-16得票数 0

1回答

Spark2-提交失败，返回pyspark

、

我正在将应用程序从spark 1.6升级到Spark 2，但在Cloudera环境中使用pyspark的Spark2-submit失败。为此，我刚刚从spark-submit更新了spark2-submit，但它失败了，无法创建Spark上下文，并给出了下面的错误。看起来Spark 2配置缺少一些属性，不允许它识别存储python文件的暂存位置。 sc = SparkContext(conf=conf) File "/apps/cloudera/parcels/SPARK2-2.1.0.cloudera1-1.cdh5.7.0.p0.120904/lib/spark2/python/

浏览 1提问于2019-05-01得票数 0

2回答

如何在Cloudera安排/触发火花作业？

、、、、

目前，我们的项目是在MR，我们使用Oozie来协调我们的乔布斯先生。现在，我们将转移到Spark，并想知道在CDH集群上调度/触发火花作业的推荐方法。请注意，CDH Oozie不支持Spark2作业。因此，请给出一个替代方案。

浏览 0提问于2018-11-20得票数 0

回答已采纳

0回答

在Shiny中使用迷你图呈现datatable

、、、

我想在闪亮的DT中加入迷你图。它在RStudio查看器中工作得很好，但在闪亮中，迷你图不会被渲染。下面是一个最小的例子。 # dependencies require(sparkline) require(DT) require(shiny) # create data with sparklines spark_data <- data.frame( id = c('spark1', 'spark2'), spark = c( spk_chr(values = 1:3, elementId = 'sp

浏览 4提问于2017-01-05得票数 5

回答已采纳

1回答

来自PySpark的合并查询失败

、、、、

我运行一个合并查询，但关键字“合并”没有被识别的火花。 17/11/27 14:39:34 ERROR JobScheduler: Error running job streaming job 1511793570000 ms.1 org.apache.spark.SparkException: An exception was raised by Python: Traceback (most recent call last): File "/usr/hdp/2.6.1.0- 129/spark2/python/lib/pyspark.zip/pyspark/streamin

浏览 0提问于2017-11-27得票数 0

回答已采纳

2回答

阅读Kafka中的Avro格式消息- Pyspark结构化流

、、、

我正在尝试使用PySpark 2.4.3阅读Kafka的Avro消息。基于下面的堆栈over flow链接，可以转换为Avro格式(to_avro)，并且代码正在按预期工作。但是，from_avro并没有工作，而且在issue.Are下面，还有其他模块支持阅读来自卡夫卡的avro消息吗？这是Cloudra的分布环境。请对此提出建议。参考: 环境详细信息: 火花： / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /__ / .__/\_,_/_/ /_/\_\ version 2.1.1.2.6.1.0-129

浏览 1提问于2019-11-21得票数 1

1回答

object databricks不是包com的成员

、、、

我正在尝试使用齐柏林飞艇(HDP2.6)在Spark2中使用斯坦福NLP库。显然，Databricks为Stanford NLP库为Spark构建了包装器。链接：我已经从下载了上述包装器的jar，还从下载了Stanford NLP jar。然后，我将这两组jars作为依赖项添加到齐柏林飞艇的Spark2解释器设置中，并重新启动解释器。下面的示例程序仍然给出错误"object databricks is not a member of package com import com.databricks.spark.corenlp.functions._“ import org.apa

浏览 7提问于2018-03-31得票数 1

1回答

在Java中传递反斜杠字符串会导致unicode错误异常

我正在运行Java代码 SparkAppHandle handler = new SparkLauncher(options).setSparkHome("\usr\hdp\2.6.3.0-235\spark2"); 我需要像上面一样定义路径，但是编译器给出了异常"Invalid Unicode“

浏览 0提问于2017-11-17得票数 0

3回答

sparksession.config()和spark.conf.set()有什么区别

、

我尝试使用这两种方法来设置spark.dynamicAllocation.minExecutors，但似乎只有第一种方法有效 spark2 = SparkSession \ .builder \ .appName("test") \ .config("spark.dynamicAllocation.minExecutors", 15) \ .getOrCreate() 与 spark2.conf.set("spark.dynamicAllocation.minExecutors", 15)

浏览 1提问于2018-10-09得票数 4

1回答

在pycharm上使用python执行spark程序时遇到错误

、、、

我在PyCharm上写了一个名为Wordcount.py的python文件。这是Wordounct.py的内容 import sys,os from pyspark import SparkContext sc = SparkContext() myrdd = sc.textFile("passwd") myrdd.count() 当我运行它时，我发现控制台上显示了一个错误以下是错误信息 /usr/local/bin/python3 /home/plters/PycharmProjects/Spark21/Wordcount.py Traceback (most rec

浏览 0提问于2017-08-05得票数 0

3回答

将Spark 2.X连接到ElasticSearch 2.X

、、、

我正在使用Spark和ElasticSearch，但是我不知道如何在ElasticSearch 2.x中使用Spark 2.X。ElasticSearch Spark libs只支持ES2.x的Spark1.6，支持ES5.alpha的Spark2。你用什么将Spark连接到ElasticSearch？

浏览 0提问于2016-09-20得票数 1

1回答

提交sh启动spark2作业的oozie工作流问题

、、

让我解释一下，这让我发疯了. 我有一个spark2程序，我想从一个oozie工作流提交。因为默认情况下，spark2不能直接从oozie提交，所以我创建了一个sh，其中包含sh 2-submit语句来执行spark2作业。如果我从控制台运行这个sh，它的工作原理是完美的。但是，当我从oozie工作流运行它时，没有办法让它工作，但更糟糕的是，我看不到执行返回的日志上有一个明显的错误。以下是我正在使用的文件： thintest.sh: spark2-submit --master yarn --class main hdfs:///home/cloudera/thintest/thintes

浏览 0提问于2018-06-14得票数 0

2回答

PySpark自定义UDF ModuleNotFoundError:没有命名的模块

、、

使用python3.6测试现有的代码，但是一些人不知道问题出在哪里，以前使用python2.7的udf是如何工作的。有没有人在本地或分布式环境中遇到类似的问题？类似于 Job aborted due to stage failure: Task 0 in stage 3.0 failed 1 times, most recent failure: Lost task 0.0 in stage 3.0 (TID 202, localhost, executor driver): org.apache.spark.api.python.PythonException: Traceback (mos

浏览 4提问于2020-01-15得票数 1

1回答

如何在spark中读取压缩的avro文件(.gz)？

、、、

我正在尝试使用spark读取一个gzip (.gz扩展名) avro文件，但是我得到了下面的错误。我从文档中看到，spark应该能够在没有任何额外转换的情况下读取.gz文件(可能是针对csv/文本文件)。我尝试运行下面的命令，但它给出了错误： df= spark.read.format("com.databricks.spark.avro").load("/user/data/test1.avro.gz") 错误： Traceback (most recent call last): File "<stdin>", line

浏览 44提问于2021-01-26得票数 0

1回答

从Spark - Python中获取数据

、

我在Spark 2.0中有一个rdd，大约有5000万个字典。它们非常小，只占用大约12 UI的内存(在Spark web UI中的每个存储选项卡)。我已经在这个RDD上运行了我想要的所有处理，现在我想从Spark中取出它，因为我现在需要将这些数据输入到另一个系统中。我在这件事上毫无进展，需要一些帮助。理想情况下，我想要做的是将每个分区发送给驱动程序，并让它通过另一个python模块在本地转储数据。这将需要最少的额外编码。我希望像这样的东西能行得通： for x in processed_data.toDF().toLocalIterator(): index.add(x) 但没什

浏览 0提问于2016-10-02得票数 1

1回答

Py4JJavaError:调用o57.sql.：org.apache.spark.SparkException:作业中止时发生错误

、、

我正试图按照下面的代码编写星星之火数据访问表。但我犯了个错误。我检查过相同的问题帖子()，但我找不到任何解决方案。你可以找到完整的错误。代码： spark_df = spark.createDataFrame(df2) spark_df.createOrReplaceTempView("steer"); spark.sql("drop table if exists sandbox_nonmotor.steer") spark.sql("create table sandbox_nonmotor.steer as select * from steer

浏览 0提问于2020-07-16得票数 2

回答已采纳